학습 에이전트 — AI 두뇌 구축하기
인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.
인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.
네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.
LY Corporation Tech-Verse 2026에서 발표된 이 글은 LLM 기반 에이전트 시스템에서 컨텍스트 창을 단순히 더 크게 늘리는 것만으로는 한계가 있다는 문제의식에서 시작한다. 어텐션 희석, 컨텍스트 부패, 규칙 충돌 등 장기 실행 에이전트의 구조적 문제를 해결하기 위해 AST 기반 가지치기와 VFS 추상화를 결합한 시멘틱 컨텍스트 OS 아키텍처를 제안한다.
Yahoo! JAPAN Search에서 LLM 프롬프트 튜닝을 수작업에서 유전 알고리즘(GEPA) 기반 자동화로 전환한 과정을 다룬다. 기존 방식은 수일~수주가 걸리고 노하우가 개인에게만 쌓이는 문제가 있었으며, GEPA와 DSPy 프레임워크 도입 후 같은 작업을 약 1시간으로 단축하고 요건 준수율 거의 100%를 달성했다.
토스 Technical Writing 팀이 AI Skill을 개발해 문서 작성과 검토 과정을 자동화한 경험을 다룬다. 4,000명 규모 조직에 TW가 3명뿐인 구조에서 기능 변화 속도를 문서가 따라가지 못하는 문제를 해결하기 위해, TW의 암묵지를 체계화하고 AI Skill로 배포해 개발자가 직접 문서화하는 구조를 만들었다.
LY Corporation이 비즈니스 질문부터 데이터 분석, 인사이트 도출까지 전 과정을 자동화하는 생성형 AI 기반 분석 에이전트 시스템 PJ One Piece를 구축했다. 기존 평균 2주 걸리던 분석 리드타임을 약 10분으로 단축하고, 월 10건이던 분석 건수를 수백 건으로 늘리며 사용자층을 데이터 사이언티스트에서 부서 구성원 절반 이상으로 확대했다.
네이버 ENGINEERING DAY 2026 발표. 쇼핑 에이전트 답변 모델 개발에서 입력 스펙이 자주 바뀌는 문제를 해결하기 위해, 변경된 스펙만 입력하면 결함 탐지·프롬프트 최적화·SFT 학습 데이터 생성을 에이전트가 폐쇄 루프로 자동화하는 파이프라인을 설계한 경험을 다룬다.
Cloudflare가 자체 Agents SDK를 개방형 런타임 플랫폼으로 전환해 외부 에이전트 프레임워크가 활용할 수 있도록 했다. Astro 팀이 만든 오픈소스 프레임워크 Flue가 첫 번째 채택자로 합류했다. 단순 SDK 제공을 넘어 다양한 프레임워크가 Cloudflare 인프라(영속 실행·SQLite 상태 저장·동적 코드 실행)를 공유하는 생태계 확장을 의미한다.
네이버 ENGINEERING DAY 2026 발표. 매 세션마다 초기화되는 AI의 근본 한계를 넘어, 경험을 축적하고 스스로 성장하는 에이전트 프레임워크 GNOSIS의 설계 원칙과 구현 사례를 소개한다. 3-Loop 구조, Constitution, 5층 기억 아키텍처, 수학적 안전 보장까지 포함한 종합 프레임워크다.
Dropbox 보안팀이 설계 단계 위협 모델과 실제 코드 리뷰 사이의 단절을 해결하기 위해 MCP(Model Context Protocol), LLM, Dash를 결합한 자동화 시스템을 구축했다. 구현 PR의 12%만이 원래 보안 설계 문서를 명시적으로 참조하고, 54%는 설계 리뷰 후 한 달 이상 뒤에 열린다는 분석에서 출발했다.
신한카드가 AWS GenAIIC와 협력하여 51개 인텐트를 처리하는 금융 AI 챗봇을 소형언어모델(sLLM)만으로 구현한 사례다. 규제(혁신금융서비스 제도 상용 모델 사용 제한), 비용, 5초 이내 응답이라는 세 제약을 동시에 충족하기 위해 온톨로지 기반 인텐트 분류, 분산형 Agentic AI, AI-to-AI 자율 개선이라는 세 가지 혁신을 결합했다.
대형 언어 모델의 신뢰성 문제는 단일 원인이 아니라 세 가지 별개의 구조적 실패 모드에서 비롯된다. 저자는 500년간의 저널리즘 관행에서 도출한 엔지니어링 프레임워크로 각 실패 모드에 대응하는 방법을 제시한다. 프롬프트 엔지니어링만으로는 이 구조적 문제들을 해결할 수 없으며, 아키텍처 수준의 설계가 필요하다.
CLAUDE.md에 규칙을 많이 추가할수록 Claude가 이를 무시하는 "Context Rot" 현상이 발생한다. 긴 입력일수록 lost-in-the-middle 효과로 모델 성능이 저하된다.
코드 생성이 빨라질수록 코드 리뷰·CI/CD·배포 조정 등 하류 병목이 그대로 이동해 전체 개발 속도는 제한된다.
Stack Overflow 가 2026년 4월 말 개발자·기술 전문가 1,100명을 대상으로 한 펄스 서베이로 AI 에이전트 도입 현황을 짚는다. 핵심은 "Agents on a leash" — 도입은 1년 새 두 배로 늘었지만 완전 자율이 아니라 사람이 감시하는 단일 에이전트 모드가 주류라는 점이다.
전통적인 QA는 통화 후 분석으로만 에이전트 스크립트 준수를 파악하며, 실시간 코칭이나 개입이 불가능하다.
O'Reilly 저자 Andrew Stellman 이 Claude Code 와 Gemini 를 조율해 21,000줄 Python 배치 처리 도구 Octobatch 를 약 75시간에 만든 경험에서, AI 코딩 에이전트를 실전에서 오케스트레이션하는 법을 정리한다. 핵심은 AI 와의 개발이 오히려 개발자에게 더 높은 기준을 요구한다는 점 — 좋은 코드 감각·아키텍처 유지·실패 패턴 감지·단순성 추구가 성패를 가른다.
사내 AI 툴 도입 확산에 따라 토큰 소비가 예상치를 초과하고, 긴 대화에서 컨텍스트 누적으로 AI 출력 품질이 저하되는 문제가 발생했다.
데이터 레지던시·에어갭·컴플라이언스 환경에서는 소스 코드를 서드파티 API로 전송할 수 없어 AI 개발 지원 기능 사용이 제한된다.
DevOps 데이터를 임원진에게 보고하려면 며칠 걸리는 SQL 작업이 필요하고, 한국 비즈니스 컨텍스트에 맞춘 분석 도구는 부족했다.