AI 튜토리얼

2025.06.02 11:06

ElevenLabs Scribe: The World's Most Accurate Speech-to-Text API (Quick Tutorial)

[영상 제목] ElevenLabs Scribe: The World's Most Accurate Speech-to-Text API (Quick Tutorial)
[채널명] Umbral

#SpeechToText  #ElevenLabs  #API튜토리얼  #n8n자동화

✔ ElevenLabs의 새로운 음성 인식 API, Scribe의 주요 기능 소개
✔ n8n을 활용한 Google Drive 파일 자동 변환 및 Google Docs 저장 워크플로우 예시
✔ 최대 1시간 길이의 영상까지 처리 가능하며 향후 다양한 기능 추가 예정

영상요약

• ElevenLabs의 Scribe는 세계에서 가장 정확한 음성-텍스트 변환 API로 소개됨
• 대시보드에서는 최대 30분 파일을, API에서는 최대 12시간까지 지원 (기본 요금제 기준)
• n8n 워크플로우를 구성해 Google Drive에서 MP4 파일을 다운로드 후 Scribe API에 전송
• 변환된 텍스트는 Google Docs로 자동 저장되어 결과 확인 가능
• API 호출 시 필요한 설정: 모델 ID는 scribe_v1, 파일은 multipart 형식으로 전송
• 변환 결과는 단어 단위로 상세 JSON으로 제공되며 전체 텍스트도 포함
• 현재는 1시간 이하 영상만 처리 가능하며 긴 영상은 나눠서 처리 필요
• 향후 더 많은 모델과 기능이 추가될 예정이며, 음성 더빙 등도 지원 계획 있음

준비물

• ElevenLabs API 키
• Google Drive 계정 및 MP4 영상 파일
• n8n 워크플로우 에디터
• Google Docs 계정

실행 순서

• n8n에서 Google Drive 노드를 통해 MP4 영상 다운로드
• HTTP 노드를 사용해 ElevenLabs Scribe API 호출 설정
• multipart/form-data 형식으로 파일과 모델 ID(scribe_v1) 전송
• 반환된 텍스트를 Google Docs 노드에 연결해 문서로 저장
• 작업 완료 후 문서에서 전체 텍스트 확인

추천 대상

• 음성 또는 영상 콘텐츠를 자동으로 텍스트화하고 싶은 개발자
• n8n을 활용한 자동화 시스템에 관심 있는 사용자
• Google Drive와 Google Docs를 연동한 워크플로우가 필요한 분

실전 팁

• 파일 크기 제한(최대 1GB), 길이 제한(1시간)을 고려한 사전 분할 권장
• 모델 ID는 현재 'scribe_v1'만 가능하며 향후 확장 예정
• 응답 JSON에서 필요한 텍스트만 추출해 활용 가능
• Google Docs 연결 시 문서 URL로 손쉽게 결과 공유 가능

"정확한 음성 인식과 자동화 워크플로우의 결합으로 콘텐츠 활용도를 극대화할 수 있습니다.
영상이나 오디오 데이터를 손쉽게 텍스트화하고 싶은 분들에게 추천드립니다."

  • 공유링크 복사