12.27
구글 코랩으로 whisper 를 실행했다.
성공했다.
주의할점은
1. openai api 를 이용하기 위해 여러 패키지가 필요한데 pip 로 자동으로 설치하면 디펜던시 오류가 난다.
오류 메시지에 나타난 버전을 확인하고 매치되지 않는 패키지를 지우고 해당 버전의 패키지를 설치하면 문제없다.
cohere
openai
의 패키지를 pip 로 설치했다.
2. 쿠다코어 gpu를 이용하기 위해 pytorch가 필요한데 최신버전은 오류가 났다.
오류메시지를 확인하고 기존버전 삭제후 / 다음과 같은 버전의 패키지를 재설치하였다.
pip install torch==2.1.0
pip install torchvision==0.16.0
pip install torchaudio==2.1.0
3. 코랩에서 실시한 명령어는 다음과 같다.
!whisper voice_file.mp3 --model large --language ko --device cuda
4. 30분 짜리 음성이
small 모델이 2분
large 모델이 22분 만에 완료되었다. (오래된 컴퓨터 cpu 8시간 30분)
5. 코랩상태는 불안정하다.
조금만 안쓴다 싶으면 파일이 자동 삭제된다.
엄청난 램과 gpu를 공짜로 쓰는 것에 비하면 감수할만하다.
유료구독도 고려해봐야한다.
6. 해야할 것
결과물에 엉뚱한 외국어가 삽입된다. 특정언어로만 인식하는 명령어가 있을 것이다.
특정언어로 고정해서 다시 출력
라지 스몰 결과물 오류율을 비교 정리.