목록전체 글 (1631)
오늘도 공부
Claude-4.6 Opus 상호작용에서 얻은 최첨단 사고 연쇄(Chain-of-Thought, CoT) 추출 기술에 대해 알아보자.CoT는 Chain of Thought의 약자이고, 한국어로는 보통 사고의 연쇄, 생각의 흐름, 단계적 추론 과정 정도로 말합니다.쉽게 말하면, AI가 답만 바로 내놓는 게 아니라왜 그런 답이 나왔는지 중간 사고 단계를 따라가며 푸는 방식 입니다.예를 들어 볼게요.질문:“사과가 3개 있고 2개를 더 사면 몇 개예요?”일반 답변은 그냥:“5개입니다.”CoT 방식은:“처음에 3개가 있고, 2개를 더 샀으니 3+2를 계산하면 5입니다.”즉, 정답만 말하는 것이 아니라 그 정답에 도달하는 과정까지 풀어서 보여주는 것이 CoT입니다.왜 중요하냐CoT가 중요한 이유는, AI가 복잡한 ..
AI 음성 전사는 이제 “된다”의 문제가 아니라 “얼마나 빨리, 얼마나 실용적으로, 얼마나 쉽게 붙일 수 있느냐”의 문제로 넘어왔습니다.insanely-fast-whisper는 바로 그 지점을 찌르는 프로젝트입니다. Whisper를 단순히 잘 돌리는 수준이 아니라, GPU 배치 처리와 최신 attention 구현을 활용해 긴 오디오도 매우 빠르게 전사할 수 있는 형태로 밀어붙였습니다. README에서는 A100 80GB 기준으로 150분 오디오를 Whisper Large v3 + Flash Attention 2 조합으로 98초 안에 처리했다고 소개합니다. (GitHub)이 프로젝트가 흥미로운 이유는 단순합니다.많은 개발자가 Whisper를 좋아하지만, 실제 서비스나 내부 툴에 붙이려는 순간 설치, GPU..
AI 에이전트가 UI를 만들고 나서 “완료했습니다”라고 말하는 순간이 있다. 그런데 정작 개발자가 받는 건 코드 diff와 말뿐이다. 화면이 진짜 떴는지, 버튼이 눌리는지, 콘솔 에러가 없는지, 데모 영상 하나 없이 끝나는 경우가 많다. ProofShot은 바로 그 지점을 찌른다. 이 프로젝트는 AI 코딩 에이전트가 기능을 만든 뒤 실제 브라우저 세션을 녹화하고, 스크린샷과 로그까지 묶어서 사람이 검토할 수 있는 “시각적 증거”를 남기는 CLI다. (GitHub)핵심은 “에이전트가 UI를 만들 수 있느냐”가 아니라 “에이전트가 만든 결과를 사람이 빠르게 믿을 수 있느냐”다. ProofShot은 Claude Code, Cursor, Codex, Gemini CLI, Windsurf처럼 셸 명령을 실행할 수..
AI 시대의 개발팀은 더 이상 “이벤트 수집 도구” 하나만으로 제품을 운영하지 않습니다. 사용자 행동을 보고, 기능을 점진 배포하고, 실험하고, 세션 리플레이로 문제를 재현하고, 필요하면 SQL로 바로 파고들어야 합니다. PostHog가 흥미로운 이유는 이 흐름을 각각의 SaaS로 쪼개지 않고, 하나의 오픈소스 코드베이스 안에서 통합하려 한다는 점입니다. 저장소를 자세히 들여다보면, 이 프로젝트는 단순한 프로덕트 애널리틱스가 아니라 “개발팀용 제품 운영 OS”에 가깝습니다. (GitHub) GitHub - PostHog/posthog: 🦔 PostHog is an all-in-one developer platform for building successful products. We offer prod..
AI Agent를 만들기 시작하면 금방 비슷한 벽에 부딪힙니다.“툴 호출은 되는데 구조가 금방 꼬인다”, “멀티 에이전트 데모는 되는데 운영 환경으로 옮기기 어렵다”, “메모리, 추적, 평가를 붙이려니 프레임워크 바깥 일이 더 많다.”AgentScope는 바로 그 지점에서 등장한 프로젝트입니다. 단순히 “에이전트를 하나 띄우는 라이브러리”가 아니라, ReAct 에이전트, 툴, 메모리, MCP, A2A, RAG, tracing, evaluation, realtime voice까지 하나의 개발 경험으로 묶으려는 방향이 매우 분명합니다. 저장소 README는 AgentScope를 “production-ready, easy-to-use agent framework”로 소개하고, 실제 패키지 구조도 agent, ..
AI 에이전트가 코드를 짜고 문서를 읽고 웹을 탐색하는 시대다. 그런데 투자 리서치나 기업 분석처럼 데이터 정확성, 툴 선택, 반복 검증이 특히 중요한 문제에서는 “그럴듯하게 답하는 LLM”만으로는 부족하다. Dexter는 바로 그 지점을 겨냥한다. 이 프로젝트는 범용 챗봇이 아니라, 복잡한 금융 질문을 단계별 조사 계획으로 쪼개고, 실시간 데이터와 문서를 수집하고, 자기 결과를 다시 점검하면서 답을 완성하는 금융 특화 에이전트다. (GitHub)저장소 첫 문장도 이 성격을 아주 선명하게 보여준다. Dexter는 “deep financial research”를 위한 autonomous agent로 소개되며, 실제로 코드 구조를 보면 CLI 중심 실행기, 금융 툴 레지스트리, 메모리 계층, 승인 기반 파일..
AI 에이전트 시대에 새로 생긴 문제는 “모델이 똑똑하냐”가 아닙니다. 같은 스킬이 10번 중 몇 번이나 안정적으로 잘 동작하느냐입니다.많은 팀이 Claude Skills, 시스템 프롬프트, 내부 에이전트 워크플로를 잘 만들어 놓고도 중요한 사실을 놓칩니다. 한두 번 잘 돌아간다고 해서, 그 스킬이 운영 가능한 수준으로 안정화된 것은 아니라는 점입니다. 실제로 Ole Lehmann은 이 문제를 정면으로 다뤘습니다. 그가 적용한 방식은 Andrej Karpathy가 공개한 autoresearch 아이디어를 Claude Skills 개선 루프로 옮겨온 것이었고, 랜딩 페이지 카피 스킬의 품질 체크 통과율을 56%에서 92%까지 끌어올렸습니다. 사람이 프롬프트를 손으로 뜯어고친 것이 아니라, 에이전트가 스스로..
Anthropic이 2025년에 공개한 회로 추적 연구로 본 LLM 내부 동작의 실제 모습AI 모델이 점점 더 똑똑해질수록, 개발자에게 더 불편한 질문 하나가 남습니다.모델은 왜 그런 답을 냈는가?지금까지 우리는 프롬프트를 넣고 결과를 받는 방식으로 LLM을 써 왔습니다. 잘 맞으면 “추론을 잘하네”라고 말했고, 틀리면 “환각했네”라고 말했습니다. 하지만 그 사이, 즉 입력에서 출력까지 모델 내부에서 무슨 계산이 일어났는지는 거의 알지 못했습니다. Anthropic은 바로 그 지점을 건드렸습니다. 2025년 3월 공개한 연구에서 이들은 Claude 3.5 Haiku의 내부 계산을 추적하는 “회로 추적” 방법을 제안했고, 시 쓰기, 다국어 처리, 산수, 환각, 탈옥 프롬프트, chain-of-thought..
AI가 코드를 써주는 시대는 이미 왔습니다.그런데 팀에 바로 도움이 되는 건 “코드 생성”이 아니라, 실패한 CI를 다시 고치고, 리뷰 코멘트를 반영하고, 결국 PR을 머지하는 자동화입니다.optio는 바로 그 지점을 겨냥한 프로젝트입니다. 단순히 에이전트를 한 번 실행하는 도구가 아닙니다. AI 코딩 작업을 실제 소프트웨어 전달 파이프라인으로 바꾸는 시스템에 가깝습니다. 작업을 넣으면 저장소 전용 실행 환경을 만들고, Claude Code나 OpenAI Codex를 돌리고, PR을 열고, CI와 리뷰 상태를 감시하다가, 실패하면 다시 에이전트를 깨워 수정하고, 통과하면 자동으로 머지까지 진행합니다. 2026년 3월 24일 기준 0.1.0으로 공개된 초기 버전이며, 저장소는 TypeScript 기반 모노..
AI 코딩 에이전트가 좋아진다고 해서, 갑자기 덜 헤매는 건 아닙니다.오히려 더 자주 같은 실수를 반복합니다.문서에 안 적힌 API 동작, 버전 충돌, CI 설정 함정, 빌드 툴의 미묘한 차이 같은 것들을 세션마다 다시 발견하죠. 인간 개발자가 예전엔 검색으로 해결했다면, 이제는 에이전트가 매번 토큰과 시간을 태우며 같은 벽에 부딪히고 있습니다.Mozilla.ai의 Cq는 바로 이 지점을 찌릅니다. 이 프로젝트는 “AI가 코드를 더 잘 생성하게 하는 도구”라기보다, 에이전트가 이미 누군가 겪은 실패를 다시 겪지 않게 만드는 지식 공용층에 가깝습니다. 저장소의 공식 설명도 Cq를 “shared agent knowledge commons”이자 “shared agent learning을 위한 open stan..
