Recent Posts
Recent Comments
반응형
«   2026/03   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Archives
Today
Total
관리 메뉴

오늘도 공부

Understudy: 프롬프트 대신 “시연으로 가르치는” 데스크탑 AI 에이전트 본문

AI

Understudy: 프롬프트 대신 “시연으로 가르치는” 데스크탑 AI 에이전트

행복한 수지아빠 2026. 3. 13. 09:47
반응형

AI에게 일을 맡기려면 지금까지는 보통 이렇게 했다.

  • 프롬프트를 정교하게 작성하거나
  • API를 연결하거나
  • 자동화 스크립트를 만들거나

하지만 최근 등장한 한 프로젝트는 이 흐름을 완전히 뒤집는다.

“설명하지 말고 그냥 보여줘.”

최근 Hacker News에 올라와 화제가 된 Understudy라는 오픈소스 프로젝트는
사용자가 컴퓨터에서 작업을 한 번 수행하는 것을 보여주면,
AI가 그 과정을 학습해 앞으로 그 작업을 대신 수행하는 데스크탑 에이전트를 만든다.

프롬프트도 필요 없다.
API도 필요 없다.
워크플로우 빌더도 필요 없다.

그냥 **“한 번 시연하면 끝”**이다.

이 글에서는 Understudy가 어떤 프로젝트인지,
왜 등장했는지, 그리고 내부적으로 어떻게 동작하는지 개발자 관점에서 분석해본다.

 

 

GitHub - understudy-ai/understudy: An understudy watches. Then performs.

An understudy watches. Then performs. Contribute to understudy-ai/understudy development by creating an account on GitHub.

github.com

 


프로젝트 소개

UnderstudyTeach-by-Demonstration 방식의 데스크탑 AI 에이전트 런타임이다.

핵심 아이디어는 매우 직관적이다.

사용자가 한 번 작업을 수행하면
에이전트가 그 과정을 관찰하고
이후에는 같은 작업을 스스로 수행한다.

프로젝트 이름도 여기서 왔다.

Understudy는 연극에서 “대역 배우”를 의미한다.

  • 주연 배우를 관찰하고
  • 역할을 배우고
  • 필요할 때 대신 수행하는 사람

이 프로젝트도 같은 철학을 가진다.

AI가 사용자의 작업을 관찰 → 학습 → 수행한다.

특히 이 프로젝트가 흥미로운 이유는
컴퓨터 전체를 하나의 작업 환경으로 본다는 점이다.

Understudy는 다음 환경을 하나의 에이전트 세션에서 동시에 다룬다.

  • GUI 앱
  • 웹 브라우저
  • 터미널
  • 파일 시스템
  • 메시징 앱

즉 단순한 GUI 클릭 자동화 도구가 아니라
컴퓨터 전체를 사용할 수 있는 AI 에이전트
다. (GitHub)


왜 이 프로젝트가 등장했을까

이 프로젝트는 사실 최근 등장한 Computer-Using Agents 흐름과 깊게 연결되어 있다.

AI가 단순히 텍스트를 생성하는 것을 넘어
실제 컴퓨터를 사용하는 방향으로 발전하고 있기 때문이다.

대표적인 흐름을 보면 다음과 같다.

  • Claude Computer Use
  • OpenAI Operator
  • Microsoft UFO
  • various GUI agents

하지만 대부분의 기존 접근 방식에는 문제가 있었다.

1. 프롬프트 기반 에이전트의 한계

대부분의 에이전트는 이렇게 동작한다.

사용자 요청
→ 프롬프트
→ 계획 생성
→ 툴 실행

문제는 실제 업무가 프롬프트로 설명하기 어려운 경우가 많다는 것이다.

예를 들어 이런 작업들:

  • 특정 사이트에서 데이터 다운로드
  • 이미지를 다운로드해서 편집
  • 파일을 특정 폴더에 저장
  • 슬랙으로 전송

이런 업무는 보통

"말로 설명하기보다 직접 보여주는 게 훨씬 빠르다."


2. 기존 자동화 방식의 문제

기존 자동화는 보통 다음 중 하나였다.

매크로

click(200, 300)
type("hello")
click(500, 400)

문제

  • 좌표 기반이라 쉽게 깨짐
  • UI 변경에 취약

RPA

  • UiPath
  • Automation Anywhere

문제

  • 설정 복잡
  • 유지보수 어려움
  • 개발 비용 높음

Understudy의 접근 방식은 이 문제를 이렇게 해결한다.

좌표를 저장하는 것이 아니라 “의도(intent)”를 저장한다. (Hacker News)

"이 버튼을 클릭"

이 아니라

"이미지 다운로드"

같은 목표 중심 작업을 학습한다.


핵심 기능

1. Teach-by-Demonstration

Understudy의 가장 중요한 기능은
사용자의 작업 시연을 통해 자동화를 만드는 것이다.

예를 들어 이런 작업을 보여줄 수 있다.

1. Google Image 검색
2. 이미지 다운로드
3. Pixelmator에서 배경 제거
4. 파일 저장
5. Telegram으로 전송

사용자가 한 번 시연하면
에이전트는 다음 정보를 추출한다.

  • 작업 단계
  • UI 컨텍스트
  • 실행 경로
  • 목표

그리고 이를 재사용 가능한 skill로 변환한다.


2. GUI + Browser + Shell 통합

Understudy는 하나의 에이전트가
컴퓨터의 모든 인터페이스를 사용할 수 있게 설계되어 있다.

대표적인 실행 경로:

Route기능

GUI 데스크탑 앱 조작
Browser 웹 자동화
Shell CLI 실행
Web 검색 및 fetch
Memory 세션 간 기억
Messaging Slack / Telegram 등

즉 하나의 에이전트가 다음 같은 작업을 수행할 수 있다.

웹에서 데이터 찾기
→ 터미널에서 스크립트 실행
→ 결과 파일 생성
→ 슬랙으로 전송

3. Intent 기반 자동화

Understudy는 단순히 GUI 이벤트를 기록하지 않는다.

대신 다음을 추출한다.

  • 작업 목표
  • 실행 전략
  • 가능한 경로

그래서 동일 작업을 다시 실행할 때

  • 동일 GUI 경로
  • 더 빠른 API 경로
  • 다른 방법

더 효율적인 실행 경로를 선택할 수 있다. (Hacker News)


4. 학습 기반 개선

에이전트는 반복 사용하면서 더 좋아진다.

프로젝트는 이를 5단계 진화 모델로 설명한다.

단계설명

Day 1 작업을 관찰
Week 1 작업을 모방
Month 1 루틴을 기억
Month 3 더 빠른 방법 발견
Month 6 필요 작업 예측

즉 단순 자동화가 아니라

AI 동료를 키우는 개념에 가깝다. (GitHub)


프로젝트 아키텍처 분석

Understudy는 “컴퓨터를 사용하는 AI 에이전트 런타임” 구조를 가진다.

핵심은 Agent Loop + Multi Interface Runtime이다.

핵심 컴포넌트는 다음과 같다.

1️⃣ Demonstration Capture

사용자의 작업을 기록한다.

  • 화면
  • 이벤트
  • 컨텍스트

2️⃣ Intent Extraction

기록된 행동에서

  • 목표
  • 작업 단계
  • UI 힌트

를 추출한다.


3️⃣ Skill Builder

작업을 재사용 가능한 skill로 변환한다.

skill: remove_background_and_send

steps:
1. search image
2. download
3. remove background
4. export
5. send telegram

4️⃣ Agent Runtime

사용자 요청이 들어오면

"Elon Musk 이미지 처리해줘"

에이전트는

Skill 실행
→ GUI / Browser / Shell 선택
→ 결과 생성

을 수행한다.


간단한 실행 예시

설치 후 다음 명령으로 실행할 수 있다.

npm install -g @understudy-ai/understudy
understudy wizard

이후 에이전트에게 작업을 시연한다.

예:

1. Google Image 검색
2. 사진 다운로드
3. 배경 제거
4. 파일 저장
5. Telegram 전송

이후 요청:

Do the same for Elon Musk

에이전트는 같은 작업을 자동 수행한다.


언제 사용하면 좋을까

이 프로젝트는 특히 다음 영역에서 강력하다.

1. 반복적인 사무 작업

  • 데이터 다운로드
  • 보고서 생성
  • 파일 정리
  • 메시지 전송

2. 개인 워크플로우 자동화

예:

새 PR 생성
→ 테스트 실행
→ 결과 슬랙 전송

3. API 없는 서비스 자동화

많은 SaaS는 API가 없다.

하지만 Understudy는

GUI를 직접 사용하기 때문에 자동화 가능하다.


이 프로젝트가 흥미로운 진짜 이유

Understudy의 핵심 메시지는 하나다.

프롬프트 시대 → 시연 시대

지금까지 AI에게 일을 맡기려면

Prompt engineering

이 필요했다.

하지만 이런 시스템이 발전하면
AI에게 일을 맡기는 방식이 이렇게 바뀔 수도 있다.

Prompt → Demonstration

즉 미래의 AI 스킬은

  • 프롬프트 작성
  • 코드 작성

이 아니라

“업무를 잘 시연하는 능력”

이 될 수도 있다.


마무리

Understudy는 아직 초기 단계다.

현재 상태:

  • macOS 중심
  • Layer 1~2 구현
  • 이후 단계 개발 중

하지만 이 프로젝트가 보여주는 방향은 매우 분명하다.

AI가 “도구”가 아니라
“업무를 배우는 동료”가 되는 방향

그리고 만약 이 접근 방식이 제대로 작동한다면
우리가 생각하는 반복 작업 자동화의 방식 자체가 바뀔 수도 있다.

반응형