어떤 일을 하나요
영상을 터미널에 드래그하고, 자연어로 원하는 편집을 말하면 됩니다. AI가 전사하고, 분석하고, 편집 전략을 제안한 뒤 렌더까지 수행합니다.
✎
필러 워드 제거
"음", "어", "그러니까" 같은 불필요한 말을 감지해 깔끔하게 잘라냅니다
☀
컬러 그레이딩
클립별로 데이터 기반 색보정을 자동 적용합니다
♪
오디오 페이드
모든 컷에 30ms 페이드로 팝 노이즈를 없앱니다
☰
자막 굽기
2단어 단위 대문자 자막을 영상에 새겨넣습니다
▶
애니메이션 오버레이
PIL, Manim으로 그래프와 모션을 생성해 올립니다
↻
자체 평가
AI가 편집 결과를 검토하고 스스로 개선을 반복합니다
어떻게 동작하나요
AI가 영상을 이해하는 방식은 두 가지 레이어로 나뉩니다.
Layer 1. 오디오 전사 — 항상 켜져 있습니다
ElevenLabs Scribe가 영상에서 단어 단위 타임스탬프, 화자 구분, 오디오 이벤트를 추출합니다. 이를 takes_packed.md 파일로 정리해 AI가 읽기 쉽게 만듭니다.
Layer 2. 비주얼 컴포지트 — 필요할 때만
특정 시간대에 화면에서 무슨 일이 일어나는지 확인해야 할 때, 필름스트립과 파형 PNG를 생성해 AI가 시각적으로 확인합니다.
1
전사
transcribe.py가 영상을 텍스트로 변환합니다
2
패킹
takes_packed.md로 문장 단위 정리합니다
3
분석 & 전략
AI가 전사를 읽고 편집 전략을 수립합니다
4
EDL 생성
편집 결정 목록(JSON)을 작성합니다
5
렌더 & 검증
preview.mp4를 만들고 자체 평가 후 final.mp4를 출력합니다
편집 스크립트
helpers/ 디렉토리 안에 있는 6개의 Python 스크립트가 실제 작업을 수행합니다.
| 스크립트 | 역할 |
|---|---|
| transcribe.py | ElevenLabs Scribe로 영상 하나 전사. 이미 전사된 파일은 캐시에서 불러옵니다 |
| transcribe_batch.py | 폴더 안의 모든 영상을 병렬(기본 4 워커)로 전사합니다 |
| pack_transcripts.py | 전사 결과를 takes_packed.md로 변환. 침묵 0.5초 이상 또는 화자 변경 시 구분합니다 |
| timeline_view.py | 필름스트립 + 파형 PNG 생성. 특정 시간대를 시각적으로 검토할 때 사용합니다 |
| grade.py | 컬러 그레이딩. 프리셋(subtle, warm_cinematic 등) 또는 자동 데이터 기반 보정 |
| render.py | 전체 렌더 파이프라인. 세그먼트 추출 → 그레이드 → 페이드 → 병합 → 자막 |
프로젝트 디렉토리
편집 작업은 edit/ 폴더 안에 정리됩니다.
edit/
├── project.md # 편집 세션 메모리
├── takes_packed.md # 패킹된 전사 텍스트
├── edl.json # 편집 결정 목록
├── transcripts/ # 원본 전사 JSON
├── animations/ # 생성된 애니메이션
├── clips_graded/ # 색보정된 클립
├── master.srt # 마스터 자막 파일
├── downloads/ # 다운로드한 영상
├── verify/ # 검증용 파일
├── preview.mp4 # 미리보기
└── final.mp4 # 최종 결과물
12가지 하드 룰
video-use가 지키는 품질 규칙입니다. 영상 편집의 프로덕션 퀄리티를 보장합니다.
- 자막은 필터 체인에서 마지막에 적용
- 세그먼트별 개별 추출 + 무손실 병합
- 모든 컷에 30ms 오디오 페이드
- PTS-시프트 오버레이
- 출력 타임라인 기준 SRT 오프셋
- 단어 경계에서만 컷
- 컷 가장자리 패딩 프레임
- 단어 단위 축어적(verbatim) ASR
- 전사 캐시 — 재전사 금지
- 애니메이션은 병렬 서브에이전트로 처리
- 실행 전 전략 확인 필수
- 모든 출력은 /edit/에 저장
실전 예제 8선
1
유튜브 영상에서 필러 워드 제거
Prompt
interview.mp4에서 '음', '어', '그러니까', 'like', 'um' 같은 필러 워드를 전부 잘라내줘.
- transcribe.py가 영상을 전사합니다
- AI가 필러 워드 위치를 탐색합니다
- EDL에 컷 포인트를 작성합니다 (단어 경계, 30ms 페이드)
- preview.mp4를 렌더하고 자체 검증합니다
10분 → 8분 30초 · 필러 제거 완료
2
팟캐스트에 한국어 자막 달기
Prompt
podcast_ep12.mp4에 한국어 자막을 넣어줘. 2단어씩 끊어서 화면 하단에 표시해.
- --language ko 옵션으로 한국어 전사
- pack_transcripts.py로 문장 단위 정리
- 자막은 필터 체인 마지막에 적용 (규칙 1)
- SRT 오프셋은 출력 타임라인 기준 (규칙 5)
master.srt · 자막 굽기 완료
3
강의 영상 색보정 + 침묵 제거
Prompt
lecture.mp4를 편집해줘. 조명이 어두운 구간은 밝게 보정하고, 5초 이상 침묵인 구간은 잘라내. 색감은 warm_cinematic 프리셋으로.
- 전사 + 타임라인 뷰로 침묵 구간 탐지
- grade.py에서 warm_cinematic + 어두운 구간 자동 보정
- 침묵 구간 컷아웃 (30ms 페이드)
- 최종 렌더
clips_graded/ · 보정 + 편집 완료
4
여러 클립 하이라이트 릴
Prompt
raw/ 폴더 안에 있는 5개 인터뷰 영상에서 가장 인상적인 발언만 모아서 3분 하이라이트 릴을 만들어줘.
- transcribe_batch.py가 5개 영상을 병렬 전사 (4 워커)
- AI가 전사 내용을 분석해 인상적인 발언 선별
- 전략 제안 → 사용자 승인
- 세그먼트별 추출 → 무손실 병합 (규칙 2)
3분 하이라이트 · 5개 소스 병합
5
유튜브 URL 다운로드 후 편집
Prompt
https://youtube.com/watch?v=xxxxx 이 영상을 다운로드해서 앞뒤 인트로/아웃트로를 잘라내고, 본론만 남겨줘.
- yt-dlp로 영상 다운로드 → edit/downloads/
- 전사 후 인트로/아웃트로 구간 식별
- 본론 구간만 EDL에 포함
- 렌더
인트로/아웃트로 제거 · 본론만 출력
6
프레젠테이션에 애니메이션 오버레이
Prompt
keynote_talk.mp4에서 '수익 성장률' 이야기하는 구간에 막대 그래프 애니메이션을 오버레이해줘.
- 전사에서 "수익 성장률" 키워드 타임스탬프 탐색
- 애니메이션 서브에이전트가 PIL/Manim으로 그래프 생성
- PTS-시프트로 정확한 위치에 오버레이
- 자막은 마지막에 적용
animations/ · 애니메이션 + 자막 완료
7
반복 구문 정리
Prompt
meeting.mp4에서 같은 말을 반복하는 구간을 찾아서 가장 자연스러운 한 번만 남기고 나머지는 잘라줘.
- 전사에서 유사 문장 클러스터링
- AI가 가장 매끄러운 버전을 선택
- 나머지 반복 구간을 EDL에서 제외
- 30ms 페이드로 자연스럽게 이음
반복 제거 · 깔끔한 최종본
8
다국어 영상 처리
Prompt
bilingual_interview.mp4를 전사해줘. 한국어와 영어가 섞여 있으니 두 언어 모두 잡아내고, 화자도 구분해줘. 화자는 2명이야.
- transcribe.py --num-speakers 2 로 화자 구분 전사
- 한국어 + 영어 혼합 자동 감지
- 화자별로 takes_packed.md 정리
- 필요시 화자별 자막 스타일 차별화
화자 A/B 구분 · 다국어 자막
시작하기
설치는 이미 완료되어 있습니다. 작업 폴더에 원본 영상을 넣고, Claude Code에서 편집을 요청하면 바로 시작할 수 있습니다.
ElevenLabs API 키만 설정하면 모든 준비가 끝납니다. 키를 전달해주시면 즉시 사용 가능합니다.
