오늘도 공부
Understudy: 프롬프트 대신 “시연으로 가르치는” 데스크탑 AI 에이전트 본문
AI에게 일을 맡기려면 지금까지는 보통 이렇게 했다.
- 프롬프트를 정교하게 작성하거나
- API를 연결하거나
- 자동화 스크립트를 만들거나
하지만 최근 등장한 한 프로젝트는 이 흐름을 완전히 뒤집는다.
“설명하지 말고 그냥 보여줘.”
최근 Hacker News에 올라와 화제가 된 Understudy라는 오픈소스 프로젝트는
사용자가 컴퓨터에서 작업을 한 번 수행하는 것을 보여주면,
AI가 그 과정을 학습해 앞으로 그 작업을 대신 수행하는 데스크탑 에이전트를 만든다.
프롬프트도 필요 없다.
API도 필요 없다.
워크플로우 빌더도 필요 없다.
그냥 **“한 번 시연하면 끝”**이다.
이 글에서는 Understudy가 어떤 프로젝트인지,
왜 등장했는지, 그리고 내부적으로 어떻게 동작하는지 개발자 관점에서 분석해본다.
GitHub - understudy-ai/understudy: An understudy watches. Then performs.
An understudy watches. Then performs. Contribute to understudy-ai/understudy development by creating an account on GitHub.
github.com
프로젝트 소개
Understudy는 Teach-by-Demonstration 방식의 데스크탑 AI 에이전트 런타임이다.
핵심 아이디어는 매우 직관적이다.
사용자가 한 번 작업을 수행하면
에이전트가 그 과정을 관찰하고
이후에는 같은 작업을 스스로 수행한다.
프로젝트 이름도 여기서 왔다.
Understudy는 연극에서 “대역 배우”를 의미한다.
- 주연 배우를 관찰하고
- 역할을 배우고
- 필요할 때 대신 수행하는 사람
이 프로젝트도 같은 철학을 가진다.
AI가 사용자의 작업을 관찰 → 학습 → 수행한다.
특히 이 프로젝트가 흥미로운 이유는
컴퓨터 전체를 하나의 작업 환경으로 본다는 점이다.
Understudy는 다음 환경을 하나의 에이전트 세션에서 동시에 다룬다.
- GUI 앱
- 웹 브라우저
- 터미널
- 파일 시스템
- 메시징 앱
즉 단순한 GUI 클릭 자동화 도구가 아니라
컴퓨터 전체를 사용할 수 있는 AI 에이전트다. (GitHub)
왜 이 프로젝트가 등장했을까
이 프로젝트는 사실 최근 등장한 Computer-Using Agents 흐름과 깊게 연결되어 있다.
AI가 단순히 텍스트를 생성하는 것을 넘어
실제 컴퓨터를 사용하는 방향으로 발전하고 있기 때문이다.
대표적인 흐름을 보면 다음과 같다.
- Claude Computer Use
- OpenAI Operator
- Microsoft UFO
- various GUI agents
하지만 대부분의 기존 접근 방식에는 문제가 있었다.
1. 프롬프트 기반 에이전트의 한계
대부분의 에이전트는 이렇게 동작한다.
사용자 요청
→ 프롬프트
→ 계획 생성
→ 툴 실행
문제는 실제 업무가 프롬프트로 설명하기 어려운 경우가 많다는 것이다.
예를 들어 이런 작업들:
- 특정 사이트에서 데이터 다운로드
- 이미지를 다운로드해서 편집
- 파일을 특정 폴더에 저장
- 슬랙으로 전송
이런 업무는 보통
"말로 설명하기보다 직접 보여주는 게 훨씬 빠르다."
2. 기존 자동화 방식의 문제
기존 자동화는 보통 다음 중 하나였다.
매크로
click(200, 300)
type("hello")
click(500, 400)
문제
- 좌표 기반이라 쉽게 깨짐
- UI 변경에 취약
RPA
- UiPath
- Automation Anywhere
문제
- 설정 복잡
- 유지보수 어려움
- 개발 비용 높음
Understudy의 접근 방식은 이 문제를 이렇게 해결한다.
좌표를 저장하는 것이 아니라 “의도(intent)”를 저장한다. (Hacker News)
즉
"이 버튼을 클릭"
이 아니라
"이미지 다운로드"
같은 목표 중심 작업을 학습한다.
핵심 기능
1. Teach-by-Demonstration
Understudy의 가장 중요한 기능은
사용자의 작업 시연을 통해 자동화를 만드는 것이다.
예를 들어 이런 작업을 보여줄 수 있다.
1. Google Image 검색
2. 이미지 다운로드
3. Pixelmator에서 배경 제거
4. 파일 저장
5. Telegram으로 전송
사용자가 한 번 시연하면
에이전트는 다음 정보를 추출한다.
- 작업 단계
- UI 컨텍스트
- 실행 경로
- 목표
그리고 이를 재사용 가능한 skill로 변환한다.
2. GUI + Browser + Shell 통합
Understudy는 하나의 에이전트가
컴퓨터의 모든 인터페이스를 사용할 수 있게 설계되어 있다.
대표적인 실행 경로:
Route기능
| GUI | 데스크탑 앱 조작 |
| Browser | 웹 자동화 |
| Shell | CLI 실행 |
| Web | 검색 및 fetch |
| Memory | 세션 간 기억 |
| Messaging | Slack / Telegram 등 |
즉 하나의 에이전트가 다음 같은 작업을 수행할 수 있다.
웹에서 데이터 찾기
→ 터미널에서 스크립트 실행
→ 결과 파일 생성
→ 슬랙으로 전송
3. Intent 기반 자동화
Understudy는 단순히 GUI 이벤트를 기록하지 않는다.
대신 다음을 추출한다.
- 작업 목표
- 실행 전략
- 가능한 경로
그래서 동일 작업을 다시 실행할 때
- 동일 GUI 경로
- 더 빠른 API 경로
- 다른 방법
중 더 효율적인 실행 경로를 선택할 수 있다. (Hacker News)
4. 학습 기반 개선
에이전트는 반복 사용하면서 더 좋아진다.
프로젝트는 이를 5단계 진화 모델로 설명한다.
단계설명
| Day 1 | 작업을 관찰 |
| Week 1 | 작업을 모방 |
| Month 1 | 루틴을 기억 |
| Month 3 | 더 빠른 방법 발견 |
| Month 6 | 필요 작업 예측 |
즉 단순 자동화가 아니라
AI 동료를 키우는 개념에 가깝다. (GitHub)
프로젝트 아키텍처 분석
Understudy는 “컴퓨터를 사용하는 AI 에이전트 런타임” 구조를 가진다.
핵심은 Agent Loop + Multi Interface Runtime이다.

핵심 컴포넌트는 다음과 같다.
1️⃣ Demonstration Capture
사용자의 작업을 기록한다.
- 화면
- 이벤트
- 컨텍스트
2️⃣ Intent Extraction
기록된 행동에서
- 목표
- 작업 단계
- UI 힌트
를 추출한다.
3️⃣ Skill Builder
작업을 재사용 가능한 skill로 변환한다.
skill: remove_background_and_send
steps:
1. search image
2. download
3. remove background
4. export
5. send telegram
4️⃣ Agent Runtime
사용자 요청이 들어오면
"Elon Musk 이미지 처리해줘"
에이전트는
Skill 실행
→ GUI / Browser / Shell 선택
→ 결과 생성
을 수행한다.
간단한 실행 예시
설치 후 다음 명령으로 실행할 수 있다.
npm install -g @understudy-ai/understudy
understudy wizard
이후 에이전트에게 작업을 시연한다.
예:
1. Google Image 검색
2. 사진 다운로드
3. 배경 제거
4. 파일 저장
5. Telegram 전송
이후 요청:
Do the same for Elon Musk
에이전트는 같은 작업을 자동 수행한다.
언제 사용하면 좋을까
이 프로젝트는 특히 다음 영역에서 강력하다.
1. 반복적인 사무 작업
- 데이터 다운로드
- 보고서 생성
- 파일 정리
- 메시지 전송
2. 개인 워크플로우 자동화
예:
새 PR 생성
→ 테스트 실행
→ 결과 슬랙 전송
3. API 없는 서비스 자동화
많은 SaaS는 API가 없다.
하지만 Understudy는
GUI를 직접 사용하기 때문에 자동화 가능하다.
이 프로젝트가 흥미로운 진짜 이유
Understudy의 핵심 메시지는 하나다.
프롬프트 시대 → 시연 시대
지금까지 AI에게 일을 맡기려면
Prompt engineering
이 필요했다.
하지만 이런 시스템이 발전하면
AI에게 일을 맡기는 방식이 이렇게 바뀔 수도 있다.
Prompt → Demonstration
즉 미래의 AI 스킬은
- 프롬프트 작성
- 코드 작성
이 아니라
“업무를 잘 시연하는 능력”
이 될 수도 있다.
마무리
Understudy는 아직 초기 단계다.
현재 상태:
- macOS 중심
- Layer 1~2 구현
- 이후 단계 개발 중
하지만 이 프로젝트가 보여주는 방향은 매우 분명하다.
AI가 “도구”가 아니라
“업무를 배우는 동료”가 되는 방향
그리고 만약 이 접근 방식이 제대로 작동한다면
우리가 생각하는 반복 작업 자동화의 방식 자체가 바뀔 수도 있다.
'AI' 카테고리의 다른 글
| Fish Speech: 차세대 오픈소스 음성 생성 모델의 등장 (0) | 2026.03.12 |
|---|---|
| AstrBot(메신저 위에 Agent를 올리는 올인원 오픈소스 챗봇 플랫폼) (1) | 2026.03.12 |
| Hatice: GitHub Issues를 자동으로 해결하는 자율 코딩 에이전트 오케스트레이션 시스템 (0) | 2026.03.12 |
| Android AppFunctions: AI 에이전트가 앱을 직접 호출하는 새로운 인터페이스 (0) | 2026.03.11 |
| Promptfoo 분석: LLM 평가와 레드팀을 한 번에 다루는 개발자 중심 AI 테스트 플랫폼 (0) | 2026.03.11 |
