AI 에이전트끼리 토론한다면? 멀티 에이전트 협업으로 재설계하는 개발 프로세스
LY Corporation 엔지니어링 팀이 단일 AI 에이전트 방식에서 Proposer-Challenger-Orchestrator 구조의 멀티 에이전트 협업 모델로 개발 프로세스를 재설계한 경험을 공유한다. AI-assist 환경에서 "개별 단계는 빠르지만 단계 간 사람 조율에서 병목"이 생기는 문제를 에이전트 간 구조화된 토론으로 해결했다.
LY Corporation 엔지니어링 팀이 단일 AI 에이전트 방식에서 Proposer-Challenger-Orchestrator 구조의 멀티 에이전트 협업 모델로 개발 프로세스를 재설계한 경험을 공유한다. AI-assist 환경에서 "개별 단계는 빠르지만 단계 간 사람 조율에서 병목"이 생기는 문제를 에이전트 간 구조화된 토론으로 해결했다.
Yahoo! JAPAN Search에서 LLM 프롬프트 튜닝을 수작업에서 유전 알고리즘(GEPA) 기반 자동화로 전환한 과정을 다룬다. 기존 방식은 수일~수주가 걸리고 노하우가 개인에게만 쌓이는 문제가 있었으며, GEPA와 DSPy 프레임워크 도입 후 같은 작업을 약 1시간으로 단축하고 요건 준수율 거의 100%를 달성했다.
토스 Technical Writing 팀이 AI Skill을 개발해 문서 작성과 검토 과정을 자동화한 경험을 다룬다. 4,000명 규모 조직에 TW가 3명뿐인 구조에서 기능 변화 속도를 문서가 따라가지 못하는 문제를 해결하기 위해, TW의 암묵지를 체계화하고 AI Skill로 배포해 개발자가 직접 문서화하는 구조를 만들었다.
네이버 ENGINEERING DAY 2026 발표. 쇼핑 에이전트 답변 모델 개발에서 입력 스펙이 자주 바뀌는 문제를 해결하기 위해, 변경된 스펙만 입력하면 결함 탐지·프롬프트 최적화·SFT 학습 데이터 생성을 에이전트가 폐쇄 루프로 자동화하는 파이프라인을 설계한 경험을 다룬다.
LY Corporation에서 Slack에 축적된 사고 대응·문의 응답 정보를 구조화하는 작업이 담당자별 품질 편차와 지연 문제를 겪었다.
CLAUDE.md에 규칙을 많이 추가할수록 Claude가 이를 무시하는 "Context Rot" 현상이 발생한다. 긴 입력일수록 lost-in-the-middle 효과로 모델 성능이 저하된다.
O'Reilly 저자 Andrew Stellman 이 Claude Code 와 Gemini 를 조율해 21,000줄 Python 배치 처리 도구 Octobatch 를 약 75시간에 만든 경험에서, AI 코딩 에이전트를 실전에서 오케스트레이션하는 법을 정리한다. 핵심은 AI 와의 개발이 오히려 개발자에게 더 높은 기준을 요구한다는 점 — 좋은 코드 감각·아키텍처 유지·실패 패턴 감지·단순성 추구가 성패를 가른다.
에이전트가 저장소별 커스텀 skill을 항상 로드한다고 가정하면 iOS 아키텍처 같은 도메인 지식 적용이 불안정해진다.
LLM 평가에 LLM 을 쓰는 "LLM-as-a-Judge" 접근에서, 평가자가 일관성 있게 정책을 따르게 만들기가 어렵다.
개발 조직이 AI 를 개인 도구가 아닌 조직 차원의 협업 방식으로 내재화하는 방법이 없었다.
UX 리서처가 인터뷰 녹취록 분석과 보고서 작성에 반복적으로 주 단위 시간을 소모해 빠른 비즈니스 환경에 대응하기 어려웠다.
프로덕트 디자이너가 PRD 작성·프로토타이핑·고객 전달 산출물에 많은 시간을 소모한다.
AI 가 실행을 대신해주는 환경에서 디자이너의 역할이 모호해진다.
AI 코딩 에이전트는 환각, lost-in-the-middle, 컨텍스트 윈도우 한계로 대화가 길어질수록 요구사항을 왜곡하거나 빠뜨린다.
LLM이 실제 서비스에 깊이 들어오면서 정책·로직·예외가 모두 프롬프트에 쌓여 누구도 손대기 싫은 블랙박스가 됐고, 프롬프트는 토큰 예측 힌트일 뿐 시스템 수준의 일관된 제어를 보장하지 못했다.
AI 코딩 에이전트에게 프레임워크 지식을 전달하는 방법으로 'Skills(패키징된 도구)'와 'AGENTS.md(프로젝트 루트 마크다운)'를 Next.js 16 API 기준으로 평가한 실험이다. 결과는 AGENTS.md가 100% 통과율을 달성한 반면 Skills는 최대 79%에 머물렀다. 에이전트가 도구를 '호출할지 결정'하는 단계 자체가 병목이었음을 수치로 보여준다.
생성형 AI가 코드 작성 부담을 흡수하면서 개발의 병목이 코딩 자체에서 문제 정의·프롬프트·결과 검증으로 옮겨가, 기존 개발 교육 커리큘럼이 더 이상 들어맞지 않게 됐다.
Claude Code 대화가 길어지면 토큰 수가 늘면서 LLM 정확도가 떨어지는 Context Rot 현상으로 응답 품질이 무너진다.
v0가 단순 코드 생성기를 넘어 실제로 작동하는 코딩 에이전트가 된 방법을 다루는 글이다. Vercel 팀이 v0에 적용한 세 가지 핵심 컴포넌트 — 동적 시스템 프롬프트, LLM Suspense 스트리밍 레이어, 자동 수정기(Autofixer) — 를 상세히 공개했다. 코딩 에이전트를 직접 만들거나 개선하려는 엔지니어에게 실질적인 구현 패턴을 제공한다.
LLM에게 어떻게 생각해? 라고 물으면 학습 데이터 패턴을 재현할 뿐 깊이 있는 관점을 제시하지 못한다.