Recent Posts
Recent Comments
반응형
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
Archives
Today
Total
관리 메뉴

오늘도 공부

AI와 채팅하면 영상이 편집됩니다 — video-use 가이드 본문

AI

AI와 채팅하면 영상이 편집됩니다 — video-use 가이드

행복한 수지아빠 2026. 4. 28. 15:24
반응형
AI와 채팅하면 영상이 편집됩니다 — video-use 가이드
Open Source Tool

AI와 채팅하면
영상이 편집됩니다

원본 영상을 폴더에 넣고 Claude Code와 대화하면,
편집이 끝난 final.mp4를 돌려받습니다.
video-use가 하는 일을 정리했습니다.

2026.04.28 · video-use 가이드

어떤 일을 하나요

영상을 터미널에 드래그하고, 자연어로 원하는 편집을 말하면 됩니다. AI가 전사하고, 분석하고, 편집 전략을 제안한 뒤 렌더까지 수행합니다.

필러 워드 제거
"음", "어", "그러니까" 같은 불필요한 말을 감지해 깔끔하게 잘라냅니다
컬러 그레이딩
클립별로 데이터 기반 색보정을 자동 적용합니다
오디오 페이드
모든 컷에 30ms 페이드로 팝 노이즈를 없앱니다
자막 굽기
2단어 단위 대문자 자막을 영상에 새겨넣습니다
애니메이션 오버레이
PIL, Manim으로 그래프와 모션을 생성해 올립니다
자체 평가
AI가 편집 결과를 검토하고 스스로 개선을 반복합니다

어떻게 동작하나요

AI가 영상을 이해하는 방식은 두 가지 레이어로 나뉩니다.

Layer 1. 오디오 전사 — 항상 켜져 있습니다

ElevenLabs Scribe가 영상에서 단어 단위 타임스탬프, 화자 구분, 오디오 이벤트를 추출합니다. 이를 takes_packed.md 파일로 정리해 AI가 읽기 쉽게 만듭니다.

Layer 2. 비주얼 컴포지트 — 필요할 때만

특정 시간대에 화면에서 무슨 일이 일어나는지 확인해야 할 때, 필름스트립과 파형 PNG를 생성해 AI가 시각적으로 확인합니다.

1
전사
transcribe.py가 영상을 텍스트로 변환합니다
2
패킹
takes_packed.md로 문장 단위 정리합니다
3
분석 & 전략
AI가 전사를 읽고 편집 전략을 수립합니다
4
EDL 생성
편집 결정 목록(JSON)을 작성합니다
5
렌더 & 검증
preview.mp4를 만들고 자체 평가 후 final.mp4를 출력합니다

편집 스크립트

helpers/ 디렉토리 안에 있는 6개의 Python 스크립트가 실제 작업을 수행합니다.

스크립트역할
transcribe.pyElevenLabs Scribe로 영상 하나 전사. 이미 전사된 파일은 캐시에서 불러옵니다
transcribe_batch.py폴더 안의 모든 영상을 병렬(기본 4 워커)로 전사합니다
pack_transcripts.py전사 결과를 takes_packed.md로 변환. 침묵 0.5초 이상 또는 화자 변경 시 구분합니다
timeline_view.py필름스트립 + 파형 PNG 생성. 특정 시간대를 시각적으로 검토할 때 사용합니다
grade.py컬러 그레이딩. 프리셋(subtle, warm_cinematic 등) 또는 자동 데이터 기반 보정
render.py전체 렌더 파이프라인. 세그먼트 추출 → 그레이드 → 페이드 → 병합 → 자막

프로젝트 디렉토리

편집 작업은 edit/ 폴더 안에 정리됩니다.

edit/ ├── project.md # 편집 세션 메모리 ├── takes_packed.md # 패킹된 전사 텍스트 ├── edl.json # 편집 결정 목록 ├── transcripts/ # 원본 전사 JSON ├── animations/ # 생성된 애니메이션 ├── clips_graded/ # 색보정된 클립 ├── master.srt # 마스터 자막 파일 ├── downloads/ # 다운로드한 영상 ├── verify/ # 검증용 파일 ├── preview.mp4 # 미리보기 └── final.mp4 # 최종 결과물

12가지 하드 룰

video-use가 지키는 품질 규칙입니다. 영상 편집의 프로덕션 퀄리티를 보장합니다.

  1. 자막은 필터 체인에서 마지막에 적용
  2. 세그먼트별 개별 추출 + 무손실 병합
  3. 모든 컷에 30ms 오디오 페이드
  4. PTS-시프트 오버레이
  5. 출력 타임라인 기준 SRT 오프셋
  6. 단어 경계에서만 컷
  7. 컷 가장자리 패딩 프레임
  8. 단어 단위 축어적(verbatim) ASR
  9. 전사 캐시 — 재전사 금지
  10. 애니메이션은 병렬 서브에이전트로 처리
  11. 실행 전 전략 확인 필수
  12. 모든 출력은 /edit/에 저장

실전 예제 8선

1
유튜브 영상에서 필러 워드 제거
Prompt
interview.mp4에서 '음', '어', '그러니까', 'like', 'um' 같은 필러 워드를 전부 잘라내줘.
  1. transcribe.py가 영상을 전사합니다
  2. AI가 필러 워드 위치를 탐색합니다
  3. EDL에 컷 포인트를 작성합니다 (단어 경계, 30ms 페이드)
  4. preview.mp4를 렌더하고 자체 검증합니다
10분 → 8분 30초 · 필러 제거 완료
2
팟캐스트에 한국어 자막 달기
Prompt
podcast_ep12.mp4에 한국어 자막을 넣어줘. 2단어씩 끊어서 화면 하단에 표시해.
  1. --language ko 옵션으로 한국어 전사
  2. pack_transcripts.py로 문장 단위 정리
  3. 자막은 필터 체인 마지막에 적용 (규칙 1)
  4. SRT 오프셋은 출력 타임라인 기준 (규칙 5)
master.srt · 자막 굽기 완료
3
강의 영상 색보정 + 침묵 제거
Prompt
lecture.mp4를 편집해줘. 조명이 어두운 구간은 밝게 보정하고, 5초 이상 침묵인 구간은 잘라내. 색감은 warm_cinematic 프리셋으로.
  1. 전사 + 타임라인 뷰로 침묵 구간 탐지
  2. grade.py에서 warm_cinematic + 어두운 구간 자동 보정
  3. 침묵 구간 컷아웃 (30ms 페이드)
  4. 최종 렌더
clips_graded/ · 보정 + 편집 완료
4
여러 클립 하이라이트 릴
Prompt
raw/ 폴더 안에 있는 5개 인터뷰 영상에서 가장 인상적인 발언만 모아서 3분 하이라이트 릴을 만들어줘.
  1. transcribe_batch.py가 5개 영상을 병렬 전사 (4 워커)
  2. AI가 전사 내용을 분석해 인상적인 발언 선별
  3. 전략 제안 → 사용자 승인
  4. 세그먼트별 추출 → 무손실 병합 (규칙 2)
3분 하이라이트 · 5개 소스 병합
5
유튜브 URL 다운로드 후 편집
Prompt
https://youtube.com/watch?v=xxxxx 이 영상을 다운로드해서 앞뒤 인트로/아웃트로를 잘라내고, 본론만 남겨줘.
  1. yt-dlp로 영상 다운로드 → edit/downloads/
  2. 전사 후 인트로/아웃트로 구간 식별
  3. 본론 구간만 EDL에 포함
  4. 렌더
인트로/아웃트로 제거 · 본론만 출력
6
프레젠테이션에 애니메이션 오버레이
Prompt
keynote_talk.mp4에서 '수익 성장률' 이야기하는 구간에 막대 그래프 애니메이션을 오버레이해줘.
  1. 전사에서 "수익 성장률" 키워드 타임스탬프 탐색
  2. 애니메이션 서브에이전트가 PIL/Manim으로 그래프 생성
  3. PTS-시프트로 정확한 위치에 오버레이
  4. 자막은 마지막에 적용
animations/ · 애니메이션 + 자막 완료
7
반복 구문 정리
Prompt
meeting.mp4에서 같은 말을 반복하는 구간을 찾아서 가장 자연스러운 한 번만 남기고 나머지는 잘라줘.
  1. 전사에서 유사 문장 클러스터링
  2. AI가 가장 매끄러운 버전을 선택
  3. 나머지 반복 구간을 EDL에서 제외
  4. 30ms 페이드로 자연스럽게 이음
반복 제거 · 깔끔한 최종본
8
다국어 영상 처리
Prompt
bilingual_interview.mp4를 전사해줘. 한국어와 영어가 섞여 있으니 두 언어 모두 잡아내고, 화자도 구분해줘. 화자는 2명이야.
  1. transcribe.py --num-speakers 2 로 화자 구분 전사
  2. 한국어 + 영어 혼합 자동 감지
  3. 화자별로 takes_packed.md 정리
  4. 필요시 화자별 자막 스타일 차별화
화자 A/B 구분 · 다국어 자막

시작하기

설치는 이미 완료되어 있습니다. 작업 폴더에 원본 영상을 넣고, Claude Code에서 편집을 요청하면 바로 시작할 수 있습니다.

ElevenLabs API 키만 설정하면 모든 준비가 끝납니다. 키를 전달해주시면 즉시 사용 가능합니다.

반응형