Notice

[팁]주옥같은 안드로이드 팁

Recent Posts

Recent Comments

Link

« 2026/08 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

오늘도 공부

Understudy: 프롬프트 대신 “시연으로 가르치는” 데스크탑 AI 에이전트 본문

Understudy: 프롬프트 대신 “시연으로 가르치는” 데스크탑 AI 에이전트

행복한 수지아빠 2026. 3. 13. 09:47

AI에게 일을 맡기려면 지금까지는 보통 이렇게 했다.

프롬프트를 정교하게 작성하거나
API를 연결하거나
자동화 스크립트를 만들거나

하지만 최근 등장한 한 프로젝트는 이 흐름을 완전히 뒤집는다.

“설명하지 말고 그냥 보여줘.”

최근 Hacker News에 올라와 화제가 된 Understudy라는 오픈소스 프로젝트는
사용자가 컴퓨터에서 작업을 한 번 수행하는 것을 보여주면,
AI가 그 과정을 학습해 앞으로 그 작업을 대신 수행하는 데스크탑 에이전트를 만든다.

프롬프트도 필요 없다.
API도 필요 없다.
워크플로우 빌더도 필요 없다.

그냥 **“한 번 시연하면 끝”**이다.

이 글에서는 Understudy가 어떤 프로젝트인지,
왜 등장했는지, 그리고 내부적으로 어떻게 동작하는지 개발자 관점에서 분석해본다.

GitHub - understudy-ai/understudy: An understudy watches. Then performs.

An understudy watches. Then performs. Contribute to understudy-ai/understudy development by creating an account on GitHub.

github.com

프로젝트 소개

Understudy는 Teach-by-Demonstration 방식의 데스크탑 AI 에이전트 런타임이다.

핵심 아이디어는 매우 직관적이다.

사용자가 한 번 작업을 수행하면
에이전트가 그 과정을 관찰하고
이후에는 같은 작업을 스스로 수행한다.

프로젝트 이름도 여기서 왔다.

Understudy는 연극에서 “대역 배우”를 의미한다.

주연 배우를 관찰하고
역할을 배우고
필요할 때 대신 수행하는 사람

이 프로젝트도 같은 철학을 가진다.

AI가 사용자의 작업을 관찰 → 학습 → 수행한다.

특히 이 프로젝트가 흥미로운 이유는
컴퓨터 전체를 하나의 작업 환경으로 본다는 점이다.

Understudy는 다음 환경을 하나의 에이전트 세션에서 동시에 다룬다.

GUI 앱
웹 브라우저
터미널
파일 시스템
메시징 앱

즉 단순한 GUI 클릭 자동화 도구가 아니라
컴퓨터 전체를 사용할 수 있는 AI 에이전트다. (GitHub)

왜 이 프로젝트가 등장했을까

이 프로젝트는 사실 최근 등장한 Computer-Using Agents 흐름과 깊게 연결되어 있다.

AI가 단순히 텍스트를 생성하는 것을 넘어
실제 컴퓨터를 사용하는 방향으로 발전하고 있기 때문이다.

대표적인 흐름을 보면 다음과 같다.

Claude Computer Use
OpenAI Operator
Microsoft UFO
various GUI agents

하지만 대부분의 기존 접근 방식에는 문제가 있었다.

1. 프롬프트 기반 에이전트의 한계

대부분의 에이전트는 이렇게 동작한다.

사용자 요청
→ 프롬프트
→ 계획 생성
→ 툴 실행

문제는 실제 업무가 프롬프트로 설명하기 어려운 경우가 많다는 것이다.

예를 들어 이런 작업들:

특정 사이트에서 데이터 다운로드
이미지를 다운로드해서 편집
파일을 특정 폴더에 저장
슬랙으로 전송

이런 업무는 보통

"말로 설명하기보다 직접 보여주는 게 훨씬 빠르다."

2. 기존 자동화 방식의 문제

기존 자동화는 보통 다음 중 하나였다.

매크로

click(200, 300)
type("hello")
click(500, 400)

문제

좌표 기반이라 쉽게 깨짐
UI 변경에 취약

RPA

UiPath
Automation Anywhere

문제

설정 복잡
유지보수 어려움
개발 비용 높음

Understudy의 접근 방식은 이 문제를 이렇게 해결한다.

좌표를 저장하는 것이 아니라 “의도(intent)”를 저장한다. (Hacker News)

즉

"이 버튼을 클릭"

이 아니라

"이미지 다운로드"

같은 목표 중심 작업을 학습한다.

핵심 기능

1. Teach-by-Demonstration

Understudy의 가장 중요한 기능은
사용자의 작업 시연을 통해 자동화를 만드는 것이다.

예를 들어 이런 작업을 보여줄 수 있다.

1. Google Image 검색
2. 이미지 다운로드
3. Pixelmator에서 배경 제거
4. 파일 저장
5. Telegram으로 전송

사용자가 한 번 시연하면
에이전트는 다음 정보를 추출한다.

작업 단계
UI 컨텍스트
실행 경로
목표

그리고 이를 재사용 가능한 skill로 변환한다.

2. GUI + Browser + Shell 통합

Understudy는 하나의 에이전트가
컴퓨터의 모든 인터페이스를 사용할 수 있게 설계되어 있다.

대표적인 실행 경로:

Route기능

GUI	데스크탑 앱 조작
Browser	웹 자동화
Shell	CLI 실행
Web	검색 및 fetch
Memory	세션 간 기억
Messaging	Slack / Telegram 등

즉 하나의 에이전트가 다음 같은 작업을 수행할 수 있다.

웹에서 데이터 찾기
→ 터미널에서 스크립트 실행
→ 결과 파일 생성
→ 슬랙으로 전송

3. Intent 기반 자동화

Understudy는 단순히 GUI 이벤트를 기록하지 않는다.

대신 다음을 추출한다.

작업 목표
실행 전략
가능한 경로

그래서 동일 작업을 다시 실행할 때

동일 GUI 경로
더 빠른 API 경로
다른 방법

중 더 효율적인 실행 경로를 선택할 수 있다. (Hacker News)

4. 학습 기반 개선

에이전트는 반복 사용하면서 더 좋아진다.

프로젝트는 이를 5단계 진화 모델로 설명한다.

단계설명

Day 1	작업을 관찰
Week 1	작업을 모방
Month 1	루틴을 기억
Month 3	더 빠른 방법 발견
Month 6	필요 작업 예측

즉 단순 자동화가 아니라

AI 동료를 키우는 개념에 가깝다. (GitHub)

프로젝트 아키텍처 분석

Understudy는 “컴퓨터를 사용하는 AI 에이전트 런타임” 구조를 가진다.

핵심은 Agent Loop + Multi Interface Runtime이다.

핵심 컴포넌트는 다음과 같다.

1️⃣ Demonstration Capture

사용자의 작업을 기록한다.

화면
이벤트
컨텍스트

2️⃣ Intent Extraction

기록된 행동에서

목표
작업 단계
UI 힌트

를 추출한다.

3️⃣ Skill Builder

작업을 재사용 가능한 skill로 변환한다.

skill: remove_background_and_send

steps:
1. search image
2. download
3. remove background
4. export
5. send telegram

4️⃣ Agent Runtime

사용자 요청이 들어오면

"Elon Musk 이미지 처리해줘"

에이전트는

Skill 실행
→ GUI / Browser / Shell 선택
→ 결과 생성

을 수행한다.

간단한 실행 예시

설치 후 다음 명령으로 실행할 수 있다.

npm install -g @understudy-ai/understudy
understudy wizard

이후 에이전트에게 작업을 시연한다.

예:

1. Google Image 검색
2. 사진 다운로드
3. 배경 제거
4. 파일 저장
5. Telegram 전송

이후 요청:

Do the same for Elon Musk

에이전트는 같은 작업을 자동 수행한다.

언제 사용하면 좋을까

이 프로젝트는 특히 다음 영역에서 강력하다.

1. 반복적인 사무 작업

데이터 다운로드
보고서 생성
파일 정리
메시지 전송

2. 개인 워크플로우 자동화

예:

새 PR 생성
→ 테스트 실행
→ 결과 슬랙 전송

3. API 없는 서비스 자동화

많은 SaaS는 API가 없다.

하지만 Understudy는

GUI를 직접 사용하기 때문에 자동화 가능하다.

이 프로젝트가 흥미로운 진짜 이유

Understudy의 핵심 메시지는 하나다.

프롬프트 시대 → 시연 시대

지금까지 AI에게 일을 맡기려면

Prompt engineering

이 필요했다.

하지만 이런 시스템이 발전하면
AI에게 일을 맡기는 방식이 이렇게 바뀔 수도 있다.

Prompt → Demonstration

즉 미래의 AI 스킬은

프롬프트 작성
코드 작성