오늘도 공부
Fish Speech: 차세대 오픈소스 음성 생성 모델의 등장 본문
AI 음성 합성(TTS)은 이미 많은 서비스에서 사용되고 있다.
하지만 대부분의 고품질 음성 모델은 폐쇄형 API에 의존한다.
- OpenAI
- ElevenLabs
- Google TTS
이런 서비스들은 뛰어난 성능을 제공하지만 커스터마이징이 어렵고 비용이 발생한다.
그렇다면 질문이 하나 생긴다.
“LLM처럼 강력한 음성 생성 모델을 오픈소스로 만들 수는 없을까?”
바로 이 질문에서 등장한 프로젝트가 있다.
Fish Speech
최근 AI 음성 생태계에서 빠르게 주목받고 있는
완전 오픈소스 기반의 고품질 음성 생성 모델이다.
이 글에서는 Fish Speech가 무엇인지,
왜 등장했는지, 그리고 개발자가 어떻게 활용할 수 있는지 아키텍처 중심으로 분석해보자.
GitHub - fishaudio/fish-speech: SOTA Open Source TTS
SOTA Open Source TTS. Contribute to fishaudio/fish-speech development by creating an account on GitHub.
github.com
Fish Speech 프로젝트 소개
Fish Speech는 고품질 음성 합성(Text-to-Speech) 및 음성 모델링을 위한 오픈소스 프로젝트다.
핵심 목표는 다음과 같다.
대형 음성 모델(Large Speech Model)을 오픈소스로 제공하는 것
즉, 단순한 TTS 엔진이 아니라 LLM처럼 확장 가능한 음성 모델 플랫폼이다.
이 프로젝트는 다음과 같은 특징을 가진다.
- 고품질 Text-to-Speech
- Voice Cloning
- Multilingual 음성 생성
- LLM 스타일의 음성 토큰 생성 모델
특히 Fish Speech는 기존 TTS와 다르게 LLM 구조 기반 음성 모델이라는 점이 핵심이다.
주요 기술 스택은 다음과 같다.
- PyTorch
- Transformer 기반 모델
- Audio Tokenization
- LLM-style generation
- CUDA / GPU inference
개발자는 이를 통해 다음과 같은 시스템을 구축할 수 있다.
- AI 음성 비서
- 오디오 기반 AI Agent
- 게임 캐릭터 음성 생성
- 영상 더빙 자동화
- Voice cloning 서비스
왜 이 프로젝트가 등장했을까
AI 음성 기술은 오래전부터 존재했다.
대표적인 방식은 다음과 같다.
1️⃣ 전통적인 TTS
대표 모델
- Tacotron
- FastSpeech
- WaveNet
이 방식은 다음과 같은 특징을 가진다.
Text → Spectrogram → Vocoder → Audio
문제는 다음과 같다.
- 파이프라인이 복잡함
- 학습이 어려움
- 확장성이 제한됨
2️⃣ API 중심 음성 모델
최근에는 API 기반 서비스가 대세다.
예
- ElevenLabs
- OpenAI TTS
- Google TTS
하지만 단점이 있다.
- 모델 내부 구조를 제어할 수 없음
- 비용 발생
- 데이터 학습 제한
- 커스터마이징 어려움
3️⃣ 새로운 접근: Large Speech Model
Fish Speech는 LLM 방식으로 음성을 생성한다.
핵심 아이디어는 이것이다.
음성을 텍스트처럼 "토큰"으로 변환하면
LLM 방식으로 음성을 생성할 수 있다
즉
Text → Audio Tokens → Transformer → Audio
이 방식은 다음과 같은 장점이 있다.
- 확장 가능한 모델 구조
- 멀티모달 가능
- Voice cloning 가능
- 다양한 언어 지원
핵심 기능
Fish Speech는 단순한 TTS 엔진이 아니라 음성 생성 플랫폼이다.
핵심 기능을 살펴보자.
1️⃣ High Quality TTS
Fish Speech는 자연스러운 음성을 생성할 수 있다.
기본 사용 예시는 다음과 같다.
from fish_speech import FishSpeech
model = FishSpeech.load_model("fish-speech-1")
audio = model.tts(
text="Hello, welcome to Fish Speech",
speaker="default"
)
model.save(audio, "output.wav")
특징
- 자연스러운 prosody
- 감정 표현
- 긴 문장 처리 가능
2️⃣ Voice Cloning
Fish Speech의 강력한 기능 중 하나는 음성 복제다.
몇 초의 음성 샘플만으로 새로운 음성을 생성할 수 있다.
model.clone_voice(
reference_audio="speaker.wav",
text="This voice is cloned"
)
이 기능은 다음 분야에서 활용된다.
- AI 캐릭터
- 게임 NPC
- 영상 더빙
- 개인 AI 비서
3️⃣ Multilingual Speech
Fish Speech는 다국어 음성 생성을 지원한다.
예
model.tts(
text="안녕하세요. Fish Speech입니다.",
language="ko"
)
가능한 언어 예
- English
- Chinese
- Korean
- Japanese
4️⃣ Audio Token 기반 생성
Fish Speech의 핵심은 Audio Tokenization이다.
일반 TTS와 달리 음성을 Discrete Token으로 변환한다.
예를 들어
Audio → [1432, 2291, 5531, 9921, ...]
이 토큰을 Transformer가 생성한다.
즉
Text → Audio Tokens → Audio
이 방식은 LLM과 매우 유사하다.
프로젝트 아키텍처 분석
Fish Speech의 내부 구조는 LLM 기반 음성 생성 파이프라인이다.
전체 구조는 다음과 같다.

각 컴포넌트의 역할을 살펴보자.
1️⃣ Text Tokenizer
입력 텍스트를 토큰으로 변환한다.
예
"Hello world"
→
[154, 23, 442, 891]
이 토큰은 모델 입력으로 사용된다.
2️⃣ Speech Model (Transformer)
핵심 모델이다.
역할
- 텍스트 이해
- 음성 토큰 생성
- speaker conditioning
구조는 다음과 같다.
Transformer Decoder
+ Attention
+ Positional Encoding
즉 GPT 스타일 모델이다.
3️⃣ Audio Token Generator
모델은 다음을 생성한다.
Audio Tokens
예
[1432, 998, 5551, 2101]
이 토큰은 실제 음성을 표현하는 압축된 표현이다.
4️⃣ Audio Decoder (Vocoder)
마지막 단계는 토큰을 실제 오디오로 변환하는 것이다.
Audio Tokens → Waveform
보통 다음 기술이 사용된다.
- VQ-VAE
- SoundStream
- Neural Codec
실제 사용 예시
Fish Speech는 다음과 같은 시스템에서 매우 유용하다.
1️⃣ AI Voice Agent
예
User → LLM → Fish Speech → Voice
AI 비서가 자연스러운 음성으로 대답할 수 있다.
2️⃣ AI YouTube 더빙
예
Script → Fish Speech → Narration
영상 자동 더빙 시스템 구축 가능
3️⃣ 게임 NPC 음성 생성
게임 캐릭터마다 다른 음성을 생성할 수 있다.
예
NPC Personality → Voice Style → Generated Voice
Fish Speech의 잠재력
Fish Speech가 중요한 이유는 단순한 TTS가 아니라 Large Speech Model 생태계를 만들고 있기 때문이다.
AI 발전 흐름을 보면 다음과 같다.
LLM → Multimodal → Audio AI
앞으로 AI 시스템은 다음 형태가 될 가능성이 높다.
Text
Image
Audio
Video
모두 하나의 모델로 처리하는 구조다.
Fish Speech는 이 중 Audio 영역의 오픈소스 LLM이라고 볼 수 있다.
정리
Fish Speech는 차세대 오픈소스 음성 모델 플랫폼이다.
핵심 특징을 정리하면 다음과 같다.
- LLM 방식 음성 생성
- Audio Token 기반 모델
- Voice cloning 지원
- Multilingual TTS
- 완전 오픈소스
AI 음성 기술은 앞으로 LLM처럼 발전할 가능성이 높다.
그리고 Fish Speech는 그 흐름에서 가장 주목받는 오픈소스 중 하나다.
'AI' 카테고리의 다른 글
| AstrBot(메신저 위에 Agent를 올리는 올인원 오픈소스 챗봇 플랫폼) (1) | 2026.03.12 |
|---|---|
| Hatice: GitHub Issues를 자동으로 해결하는 자율 코딩 에이전트 오케스트레이션 시스템 (0) | 2026.03.12 |
| Android AppFunctions: AI 에이전트가 앱을 직접 호출하는 새로운 인터페이스 (0) | 2026.03.11 |
| Promptfoo 분석: LLM 평가와 레드팀을 한 번에 다루는 개발자 중심 AI 테스트 플랫폼 (0) | 2026.03.11 |
| Playwright Interactive mode 설명 (0) | 2026.03.10 |
