목록전체 글 (1727)
오늘도 공부
종이 문서를 스캔해서 폴더에 쌓아두는 방식은, 디지털화가 아니라 단순한 “파일 덤프”에 가깝습니다. 진짜 필요한 건 PDF를 저장하는 도구가 아니라, 문서 안의 텍스트를 읽고, 분류하고, 다시 찾아낼 수 있게 만드는 시스템입니다. Paperless-ngx는 바로 그 지점을 겨냥한 프로젝트입니다. 스캔한 영수증, 계약서, 고지서, 세금 문서를 그냥 보관하는 수준을 넘어서, OCR·인덱싱·자동 분류·검색까지 하나의 파이프라인으로 묶어줍니다. (GitHub)이 프로젝트가 흥미로운 이유는 “문서 보관함”처럼 보이지만, 실제로는 꽤 잘 설계된 비동기 문서 처리 플랫폼에 가깝기 때문입니다. Docker Compose로 비교적 쉽게 올릴 수 있고, 백엔드는 Django 기반, 작업 처리는 Celery와 Redis, ..
AI 에이전트가 브라우저를 다루는 시대는 이미 왔습니다. 그런데 모바일 앱은 여전히 어렵습니다.웹에서는 Playwright 같은 도구로 DOM을 읽고 버튼을 누르고 상태를 검증할 수 있습니다. 반면 네이티브 앱은 대개 스크린샷을 찍고, 좌표를 추정하고, “아마 이 버튼일 것”이라고 가정하는 식으로 자동화됩니다. 이 방식은 데모에서는 그럴듯해 보여도, 실제 앱에서는 금방 흔들립니다. 화면 전환 애니메이션 하나만 달라져도 실패하고, 텍스트가 조금 바뀌면 에이전트가 길을 잃습니다. AppReveal은 바로 이 지점을 정면으로 찌릅니다. 앱 바깥에서 픽셀을 추측하지 말고, 아예 디버그 빌드 내부에 MCP 서버를 넣어서 앱의 UI, 상태, 네비게이션, 네트워크를 구조적으로 드러내자는 접근입니다. (GitHub) ..
AI가 회의록을 써주는 시대는 이미 지났습니다.이제는 회의가 끝난 뒤 정리해주는 도구보다, 회의가 진행되는 순간에 내가 무슨 말을 해야 하는지 도와주는 도구가 더 흥미롭습니다. OpenGranola는 바로 그 지점을 파고듭니다. 이 프로젝트는 단순히 통화를 녹음하고 요약하는 앱이 아니라, 내 로컬 지식 베이스를 뒤져 지금 이 대화에 필요한 근거와 포인트를 실시간으로 띄워주는 macOS용 미팅 코파일럿입니다. 저장소 설명 그대로 “A meeting note-taker that talks back”에 가깝습니다. (GitHub) GitHub - yazinsai/OpenGranolaContribute to yazinsai/OpenGranola development by creating an account o..
AI Agent, 실시간 API, 엣지 애플리케이션이 점점 많아질수록 개발자는 한 가지 질문과 자주 마주칩니다.“서버는 가볍고 빨라야 하는데, 동시에 브라우저처럼 익숙한 API를 쓰고 싶다. 그런데 Node.js나 컨테이너 기반 모델로는 너무 무겁다.”workerd는 바로 그 지점에서 등장한 프로젝트입니다.이건 단순한 “또 하나의 자바스크립트 런타임”이 아닙니다. Cloudflare Workers를 실제로 구동하는 핵심 런타임 코드를 바탕으로, 같은 실행 모델을 로컬 개발, 셀프 호스팅, 프록시 서버, 테스트 환경까지 확장하려는 시도에 가깝습니다. (GitHub)개발자 관점에서 보면 더 흥미롭습니다. workerd는 브라우저 표준에 가까운 API, V8 isolate 기반의 경량 실행 모델, 서비스 간 ..
최근 Unsloth AI가 공개한 Unsloth Studio는 한마디로 말해서👉 *“로컬에서 LLM을 쉽게 학습·실행·배포까지 가능한 올인원 툴”*입니다.기존에는 AI 파인튜닝이 일부 기업/연구자 영역이었다면,이제는 개인 개발자도 충분히 접근 가능한 수준으로 내려왔습니다.🖥️ Unsloth Studio 한눈에 보기핵심 특징 요약🧠 로컬 LLM 파인튜닝 GUI 제공⚡ VRAM 사용량 최대 70% 절감🚀 학습 속도 최대 2배 향상📂 PDF/CSV → 자동 데이터셋 생성💻 Mac / Windows 지원 (로컬 실행)🔥 왜 이게 중요한가 (핵심 변화 3가지)1. “GPU 장벽”이 무너짐기존:고성능 GPU (A100, H100 등) 필요클라우드 비용 폭발👉 Unsloth:저사양 GPU에서도 가능VR..
대형 코드베이스를 처음 열었을 때 이런 경험이 있을 것이다."이 프로젝트… 어디서부터 봐야 하지?"README는 부족하고, 폴더 구조는 복잡하며,핵심 로직이 어디 있는지 찾는 데만 몇 시간이 걸린다.GitNexus는 바로 이 문제를 해결하기 위해 등장한 프로젝트다.단순한 코드 검색이 아니라, 코드베이스를 ‘이해’하고 연결해주는 AI 탐색 엔진이다.프로젝트 소개GitNexus는 GitHub 저장소를 분석하여코드 간의 관계를 그래프 형태로 구성하고, 이를 기반으로 질문에 답변하는 AI 시스템이다.즉, 단순히 코드를 읽는 것이 아니라:어떤 파일이 중요한지함수들이 어떻게 연결되는지특정 기능이 어디에서 구현되는지를 지능적으로 탐색할 수 있게 만든다.핵심 개념Code → Graph 변환Graph 기반 탐색LLM 기..
AI로 만화를 “자동 생성”하는 시대AI 이미지 생성은 이미 대중화됐다.하지만 “스토리 + 캐릭터 + 장면 + 컷 구성”까지 포함한 만화 제작 전체 파이프라인을 자동화하는 것은 여전히 어려운 문제다.이 지점에서 등장한 프로젝트가 바로 AimangaStudio다.이 프로젝트는 단순한 이미지 생성 툴이 아니라, AI를 활용한 만화 제작 시스템이라는 점에서 흥미롭다. GitHub - morsoli/aimangastudio: 一个利用 AI 制作漫画的工具,支持脚本创作、分镜设计和角色风格控制一个利用 AI 制作漫画的工具,支持脚本创作、分镜设计和角色风格控制。. Contribute to morsoli/aimangastudio development by creating an account on GitHub.github.co..
🚀 Mistral Small 4 정리– “작지만 강력한 올인원 AI 모델” 등장프랑스 AI 스타트업 Mistral AI가 새로운 모델 Mistral Small 4를 공개했습니다.이 모델은 “작지만(Compact) 강력한(Enterprise-ready)” AI를 목표로 만들어진 차세대 범용 모델입니다.🧠 한 줄 핵심 요약👉 Mistral Small 4 = 채팅 + 코딩 + 에이전트 + 추론을 하나로 합친 통합형 AI 모델🔥 주요 특징1. 🧩 “Hybrid 모델” (텍스트 + 이미지)텍스트뿐 아니라 이미지 입력도 처리 가능하나의 모델로 멀티모달 작업 수행GPT-4o 계열과 유사한 방향👉 즉, “텍스트 전용 모델” → “멀티모달 통합 모델”로 진화2. 🤖 범용 AI (General Purpose)..
AI 코딩 에이전트 이야기를 할 때 늘 비슷한 한계가 나옵니다.“코드는 써주는데, 결과물이 진짜로 돌아가느냐?”특히 게임 개발에서는 이 문제가 훨씬 더 심각합니다. 텍스트로는 맞아 보여도, 화면에 띄워보면 카메라가 틀어지고, 오브젝트가 공중에 뜨고, 충돌이 깨지고, 아트 스타일이 제각각인 일이 너무 흔합니다.htdt/godogen은 바로 그 지점을 정면으로 때리는 프로젝트입니다. 이 저장소는 단순한 “게임 코드 생성기”가 아니라, 자연어 설명을 받아 Godot 4 게임을 실제 프로젝트 단위로 만들어내는 AI 개발 파이프라인을 구현합니다. 더 중요한 건, 이 프로젝트가 코드를 생성하는 데서 멈추지 않고, 실행한 뒤 스크린샷을 찍고, 비전 모델로 결과를 검증하고, 다시 고치는 루프까지 포함한다는 점입니다. ..
요즘 Agent를 만드는 팀이 가장 빨리 마주치는 벽은 모델 성능이 아닙니다.오히려 기억의 부재입니다.프롬프트를 잘 짜도, 벡터 DB를 붙여도, 에이전트는 여전히 “지금 이 질문에 필요한 맥락”만 겨우 꺼내올 뿐입니다. 세션이 바뀌면 잊어버리고, 문서 간 관계를 깊게 이해하지 못하고, 시간이 지나 데이터가 바뀌어도 기억은 잘 자라지 않습니다.Cognee는 바로 이 지점을 정면으로 겨냥합니다.단순한 RAG 라이브러리가 아니라, AI Agent를 위한 지식 엔진이자 메모리 레이어를 만들겠다는 접근입니다. 저장된 문서를 검색하는 수준을 넘어서, 데이터를 그래프와 벡터, 그리고 추론 가능한 구조로 바꿔 “에이전트가 쓸 수 있는 기억”으로 재구성하려는 프로젝트입니다. GitHub - topoteretes/co..
