Speech-to-Speech Translation — 음성-음성 번역

정의

음성 신호에서 직접 의미를 추출하여 목표 언어의 음성으로 변환하는 기술. 텍스트라는 중간 매개체를 완전히 제거함으로써 감정과 뉘앙스를 보존.

작동 원리

1. 음성 파동 입수
2. AI가 파동에서 직접 의미 해석
3. 목표 언어의 음성으로 즉시 변환
4. 원본 감정, 톤, 억양 보존

장점

  • 실시간 처리
  • 감정 보존
  • 자연스러운 대화 흐름
  • 지연 최소화

출처: AI인터시스브랜드 Video 21 기술: 직접 신경-음성 번역