pile·
AI / ML·stackoverflow-blogStack Overflow Blog·

AI 코딩 에이전트 오케스트레이션 실전 경험기

O'Reilly 저자 Andrew Stellman 이 Claude Code 와 Gemini 를 조율해 21,000줄 Python 배치 처리 도구 Octobatch 를 약 75시간에 만든 경험에서, AI 코딩 에이전트를 실전에서 오케스트레이션하는 법을 정리한다. 핵심은 AI 와의 개발이 오히려 개발자에게 더 높은 기준을 요구한다는 점 — 좋은 코드 감각·아키텍처 유지·실패 패턴 감지·단순성 추구가 성패를 가른다.

핵심 포인트
  • AIDD(AI-Driven Development)를 습관(Sens-AI)·관행·가치 3계층으로 정리하고, 도구가 아닌 이 체계가 성공을 좌우한다고 본다.
  • Octobatch 는 Python 21,000줄·테스트 1,000개를 Claude Code+Gemini 협업으로 약 75시간에 만들었다.
  • 실시간 API 대신 Batch API 를 써 비용 50%·처리 50% 단축을 얻었다.
  • "drunken sailor" 시뮬레이션이 예상 50%와 다른 77.5%를 내, 시드 재초기화 편향을 도메인 지식으로 잡았다.
  • AI 는 코드 추가를 선호하고 삭제를 제안 안 해, 경험 개발자가 단순화를 강제해야 한다.
상세 정리
  • 배경: 개발자들이 AI 협업을 이론으론 알아도 수천 줄 AI 코드 검수·일관성·신뢰도 판단 같은 실무에서 막히는 격차를 지적한다.
  • AIDD: 맥락 제공·사전 조사·정밀한 프레임·반복·비판적 사고의 Sens-AI 습관, 다중 LLM 조율·컨텍스트 파일 관리·상호 검증의 관행, 일관성 유지의 가치로 3계층을 짠다.
  • Octobatch: Python 21,000줄, 약 75시간(7주), 자동화 테스트 1,000개를 Claude Code 와 Gemini 로 설계·구현·검증했다.
  • Batch API: 실시간 API 대비 비용 50%, 100단위 이상에서 50% 더 빠른 병렬 처리, 레이트 제한 완화를 얻었다.
  • 데이터 검증: drunken sailor 시뮬레이션이 예상 50%와 달리 77.5%가 나와, 시드 재초기화로 인한 상관 편향을 Claude 테스트 생성·Gemini 원인 분석·저자의 RNG 지속 수정으로 잡았다.
  • 복잡성 과대평가: 수학식 파이프라인을 Claude 는 3시간+다음 버전 권고했지만, 이미 쓰던 asteval 라이브러리 재활용으로 5분에 끝났다.
  • 코드 편향: AI 가 계층·예외를 계속 추가만 하고 삭제를 제안 안 해, 경험 개발자가 단순화를 강제해야 한다.
  • 아키텍처는 실패에서: 메모리 내 상태 스크립트가 실패하자 깨어남→상태 확인→작업→영속화→종료의 Tick Model 을 도입해 manifest 파일을 진실의 원천으로 삼아 crash recovery 를 확보했다.
  • 워크플로 도구 한계: Airflow·Dagster 는 결정론적 작업을 가정해, LLM 배치에는 스키마 검증·의미 기반 재시도·부분 실패 복구가 따로 필요했다.
  • 도구 중립성: 후반에 Cursor 로 바꿔도 같은 컨텍스트 파일로 바로 생산성이 나와, 성공은 도구가 아닌 습관·관행·가치에 있었다.
왜 읽나AI 에이전트로 실제 규모 있는 코드를 만들려는 개발자에게, 다중 LLM 조율·아키텍처 유지·단순화 강제 같은 실전 오케스트레이션 원칙 레퍼런스.
stackoverflow-blog
Stack Overflow Blog 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2