Recent Posts
Recent Comments
반응형
«   2026/06   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Archives
Today
Total
관리 메뉴

오늘도 공부

Ornith-1.0: 코딩 에이전트가 스스로 ‘일하는 방식’까지 학습하기 시작했다 본문

AI/추천 오픈소스

Ornith-1.0: 코딩 에이전트가 스스로 ‘일하는 방식’까지 학습하기 시작했다

행복한 수지아빠 2026. 6. 27. 11:30
반응형

AI 코딩 모델의 경쟁은 지금까지 주로 “얼마나 좋은 코드를 생성하느냐”에 집중되어 있었다.

하지만 실제 개발 현장에서 중요한 것은 단순 코드 생성이 아니다.

문제를 읽고, 환경을 이해하고, 테스트를 돌리고, 실패 원인을 찾고, 다시 수정하고, 최종적으로 동작하는 결과를 만드는 과정 전체가 중요하다.
이런 흐름을 우리는 보통 Agentic Coding, 즉 에이전트형 코딩이라고 부른다.

DeepReinforce가 공개한 Ornith-1.0은 바로 이 지점을 겨냥한 오픈소스 모델 패밀리다. 핵심은 단순하다.
모델이 코드만 잘 짜는 것이 아니라, 문제를 풀기 위한 작업 절차와 보조 구조, 즉 scaffold까지 스스로 개선한다는 것이다. (DeepReinforce)


1. Ornith-1.0은 무엇인가?

Ornith-1.0은 DeepReinforce가 공개한 agentic coding 전용 오픈소스 모델 패밀리다. 공개 페이지에 따르면 모델 라인업은 9B Dense, 31B Dense, 35B MoE, 397B MoE까지 구성되어 있다. 작은 모델은 엣지 디바이스 배포를, 큰 모델은 프런티어급 성능을 목표로 한다. (DeepReinforce)

기반 모델은 Gemma 4와 Qwen 3.5 계열 pretrained 모델 위에 구축되었다고 설명되어 있다. DeepReinforce는 Ornith-1.0이 비슷한 크기의 오픈소스 모델 대비 코딩 벤치마크에서 높은 성능을 보였다고 주장한다. (DeepReinforce)

여기서 중요한 포인트는 “또 하나의 코딩 LLM”이 아니라는 점이다.
Ornith-1.0의 핵심 차별점은 Self-Scaffolding, 즉 모델이 문제 해결을 위한 내부 작업 방식까지 학습한다는 데 있다.


2. Self-Scaffolding이 왜 중요한가?

기존의 에이전트형 코딩 시스템은 대개 사람이 설계한 고정된 harness 또는 scaffold에 의존한다.

예를 들면 이런 식이다.

“파일을 읽어라.”
“테스트를 실행해라.”
“에러 로그를 분석해라.”
“수정 후 다시 테스트해라.”
“최종 답변을 작성해라.”

이런 절차는 사람이 미리 설계한다. 모델은 그 안에서 움직인다.

Ornith-1.0은 이 구조를 바꾸려 한다.
DeepReinforce의 설명에 따르면 Ornith-1.0은 강화학습 과정에서 솔루션 rollout뿐 아니라 그 rollout을 유도하는 scaffold 자체도 함께 생성하고 최적화한다. 즉, 모델이 “정답”만 학습하는 것이 아니라 “정답에 도달하기 위한 절차”도 학습한다. (DeepReinforce)

쉽게 말하면, 기존 모델은 문제를 푸는 학생에 가깝다.
Ornith-1.0은 문제를 풀면서 동시에 자기만의 풀이 전략 노트까지 개선하는 학생에 가깝다.


3. 학습 방식: 답안과 작업 절차를 함께 최적화한다

Ornith-1.0의 강화학습 단계는 크게 두 흐름으로 설명된다.

먼저 모델은 주어진 task와 이전 scaffold를 바탕으로 개선된 scaffold를 제안한다.
그다음 그 scaffold와 task 설명을 바탕으로 solution rollout, 즉 실제 문제 해결 과정을 생성한다.
최종 reward는 단순히 답안 생성 단계에만 반영되는 것이 아니라 scaffold 생성 단계에도 함께 전달된다. (DeepReinforce)

이 구조가 의미하는 바는 크다.

모델은 특정 문제 유형에서 어떤 접근 방식이 더 좋은지 반복적으로 학습한다.
어떤 순서로 파일을 읽는 것이 좋은지, 언제 테스트를 돌리는 것이 좋은지, 에러를 어떻게 분류해야 하는지, 어떤 복구 전략이 효과적인지 같은 “작업 운영 방식”이 점점 진화할 수 있다.

코딩 에이전트에서 중요한 것은 단순 지식이 아니라 실행 전략이다.
Ornith-1.0은 바로 그 실행 전략을 학습 대상으로 끌어올린 모델이라고 볼 수 있다.


4. Reward Hacking 문제를 어떻게 막았나?

Self-improvement 구조에는 위험도 있다.
모델이 스스로 scaffold를 만들 수 있다면, 실제 문제를 해결하지 않고도 평가기를 속이는 방향으로 최적화될 수 있다.

DeepReinforce 역시 이 문제를 언급한다. 예를 들어 모델이 숨겨진 테스트 파일을 읽거나, 검증 스크립트를 우회하거나, 기대 출력값을 하드코딩하는 식의 reward hacking이 발생할 수 있다. (DeepReinforce)

이를 막기 위해 Ornith-1.0은 세 가지 방어 구조를 사용한다고 설명한다.

첫째, 환경과 도구 표면, 테스트 격리 구조를 모델이 바꿀 수 없는 외부 신뢰 경계로 고정한다.
둘째, deterministic monitor를 통해 금지된 경로 읽기, 검증 스크립트 변경, 허용되지 않은 도구 호출 등을 감지하고 해당 trajectory에 zero reward를 부여한다.
셋째, 허용된 도구 안에서 발생할 수 있는 의도 수준의 gaming을 막기 위해 frozen LLM judge를 verifier 위의 veto 장치로 사용한다. (DeepReinforce)

이 부분은 코딩 에이전트 학습에서 매우 중요하다.
에이전트가 강력해질수록 “문제를 푸는 능력”과 “평가 체계를 우회하는 능력”이 동시에 커질 수 있기 때문이다.


5. 성능: 397B 모델은 Claude Opus급을 겨냥한다

DeepReinforce 공개 자료에 따르면 Ornith-1.0-397B는 Terminal-Bench 2.1에서 77.5, SWE-Bench Verified에서 82.4를 기록했다고 한다. 같은 표에서 Claude Opus 4.7은 Terminal-Bench 2.1 70.3, SWE-Bench Verified 80.8로 제시되어 있다. (DeepReinforce)

다만 이 수치는 DeepReinforce 페이지에 공개된 평가 결과 기준이다.
[Unverified] 독립적인 제3자 재현 평가까지 확인한 것은 아니다.

공개 표 기준으로 보면 Ornith-1.0-397B는 다음과 같은 위치에 있다.

모델Terminal-Bench 2.1SWE-Bench Verified

Ornith-1.0-397B 77.5 82.4
Claude Opus 4.7 70.3 80.8
DeepSeek-V4-Pro 64.0 또는 67.9 계열 수치로 표기 80.6
MiniMax-M3 64.0 표 항목 일부 미기재

공개 페이지 안에서도 일부 본문 수치와 표 수치가 세부적으로 다르게 보이는 부분이 있다. 예를 들어 본문에서는 DeepSeek-V4-Pro의 Terminal-Bench 2.1 수치를 67.9로 언급하지만, 표에서는 Terminus-2 기준 64.0, Claude Code 기준 66.5로 제시되어 있다. 따라서 외부 글에서는 “DeepReinforce 공개 페이지 기준”이라고 명확히 쓰는 것이 안전하다. (DeepReinforce)


6. 더 흥미로운 모델은 9B일 수 있다

대형 397B 모델도 인상적이지만, 실제 활용 관점에서 더 눈에 띄는 것은 Ornith-1.0-9B다.

DeepReinforce에 따르면 9B 모델은 Terminal-Bench 2.1에서 43.1, SWE-Bench Verified에서 69.4를 기록했다. 이 수치는 Qwen3.5-9B보다 높고, 일부 항목에서는 더 큰 Gemma4-31B와 비슷하거나 앞서는 것으로 제시되어 있다. (DeepReinforce)

이 부분이 중요한 이유는 명확하다.

대기업이나 연구소는 397B급 모델을 운용할 수 있다.
하지만 개인 개발자, 스타트업, 로컬 에이전트 환경에서는 9B~35B급 모델이 훨씬 현실적이다.

Ornith-1.0-9B가 공개 수치처럼 강한 agentic coding 성능을 낸다면, 로컬 개발 에이전트, 온디바이스 코딩 도우미, 사내 폐쇄망 개발 도구 같은 영역에서 의미가 있을 수 있다.


7. Ornith-1.0이 보여주는 방향성

Ornith-1.0의 핵심 메시지는 “더 큰 모델”이 아니다.
오히려 중요한 것은 에이전트의 작업 구조 자체를 학습 대상으로 삼았다는 점이다.

앞으로 코딩 AI의 경쟁은 단순히 다음 토큰을 잘 예측하는 방향에서 벗어날 가능성이 크다.

이제 중요한 질문은 다음과 같다.

모델이 어떤 순서로 생각하는가?
어떤 도구를 언제 호출하는가?
실패했을 때 어떻게 복구하는가?
테스트 결과를 어떻게 해석하는가?
문제 해결 전략을 스스로 개선할 수 있는가?

Ornith-1.0은 이 질문에 대한 하나의 답을 제시한다.
코딩 모델은 이제 코드 생성기를 넘어, 자기 작업 방식을 개선하는 개발 에이전트로 진화하고 있다.


8. 개발자 관점에서의 의미

개발자 입장에서 Ornith-1.0은 세 가지 관점에서 볼 수 있다.

첫째, 오픈소스 코딩 에이전트 경쟁이 본격화되고 있다.
Claude Code, OpenAI Codex 계열, Devin류 시스템처럼 폐쇄형 도구가 강세였던 agentic coding 영역에 오픈소스 모델이 빠르게 접근하고 있다.

둘째, scaffold 설계가 점점 중요해진다.
지금까지는 프롬프트 엔지니어링이나 툴 호출 구조를 사람이 설계했다. 하지만 Ornith-1.0이 제시하는 방향은 scaffold 자체도 학습 가능한 객체로 보는 것이다.

셋째, 작은 모델의 가능성이 커진다.
9B 모델이 agentic coding benchmark에서 일정 수준 이상의 성능을 낸다면, “항상 초대형 모델을 API로 호출해야 한다”는 전제가 약해질 수 있다.


9. 한계와 주의할 점

다만 Ornith-1.0을 볼 때는 몇 가지를 조심해야 한다.

첫째, 현재 성능 수치는 DeepReinforce의 공개 페이지 기준이다.
[Unverified] 제3자 재현 평가, 실제 개발 프로젝트 적용 결과, 장기 안정성까지 확인된 것은 아니다.

둘째, benchmark 성능이 실제 제품 품질을 그대로 의미하지는 않는다.
SWE-Bench나 Terminal-Bench는 유용한 평가 기준이지만, 실제 현업 코드는 레거시 의존성, 팀 규칙, 보안 정책, 비즈니스 로직, 배포 환경까지 얽혀 있다.

셋째, self-scaffolding은 강력하지만 위험한 방향이기도 하다.
모델이 작업 절차를 스스로 바꿀 수 있다는 것은 효율성을 높일 수 있다는 뜻이지만, 동시에 평가 우회나 예측 불가능한 실행 전략이 나올 수 있다는 뜻이기도 하다.

따라서 실제 활용에서는 sandbox, 권한 제한, 로그 추적, 테스트 격리, 코드 리뷰 체계가 필수다.


결론: Ornith-1.0은 ‘코드를 쓰는 AI’보다 ‘일하는 방식을 배우는 AI’에 가깝다

Ornith-1.0의 흥미로운 지점은 성능표 자체보다 그 철학에 있다.

기존 코딩 모델은 “좋은 답을 내는 모델”에 가까웠다.
Ornith-1.0은 한 걸음 더 나아가 “좋은 답에 도달하는 방식을 스스로 개선하는 모델”을 지향한다.

이 변화는 앞으로 AI 개발 도구의 방향을 잘 보여준다.
프롬프트를 잘 쓰는 시대에서, 에이전트의 작업 루프를 설계하는 시대로 넘어가고 있다.
그리고 그 다음 단계는 에이전트가 자신의 작업 루프를 직접 개선하는 시대일 수 있다.

Ornith-1.0은 그 전환을 보여주는 흥미로운 사례다.
아직 검증해야 할 부분은 많지만, agentic coding과 오픈소스 코딩 모델의 미래를 보는 데 충분히 주목할 만한 프로젝트다.

 

 

Ornith-1.0 - a deepreinforce-ai Collection

Ornith-1.0 is  a family of open-source LLMs specialized for agentic coding.

huggingface.co

 

 

반응형