AI 코딩 에이전트 오케스트레이션 실전 경험기

O'Reilly 저자 Andrew Stellman 이 Claude Code 와 Gemini 를 조율해 21,000줄 Python 배치 처리 도구 Octobatch 를 약 75시간에 만든 경험에서, AI 코딩 에이전트를 실전에서 오케스트레이션하는 법을 정리한다. 핵심은 AI 와의 개발이 오히려 개발자에게 더 높은 기준을 요구한다는 점 — 좋은 코드 감각·아키텍처 유지·실패 패턴 감지·단순성 추구가 성패를 가른다.

핵심 포인트

AIDD(AI-Driven Development)를 습관(Sens-AI)·관행·가치 3계층으로 정리하고, 도구가 아닌 이 체계가 성공을 좌우한다고 본다.
Octobatch 는 Python 21,000줄·테스트 1,000개를 Claude Code+Gemini 협업으로 약 75시간에 만들었다.
실시간 API 대신 Batch API 를 써 비용 50%·처리 50% 단축을 얻었다.
"drunken sailor" 시뮬레이션이 예상 50%와 다른 77.5%를 내, 시드 재초기화 편향을 도메인 지식으로 잡았다.
AI 는 코드 추가를 선호하고 삭제를 제안 안 해, 경험 개발자가 단순화를 강제해야 한다.

상세 정리

배경: 개발자들이 AI 협업을 이론으론 알아도 수천 줄 AI 코드 검수·일관성·신뢰도 판단 같은 실무에서 막히는 격차를 지적한다.
AIDD: 맥락 제공·사전 조사·정밀한 프레임·반복·비판적 사고의 Sens-AI 습관, 다중 LLM 조율·컨텍스트 파일 관리·상호 검증의 관행, 일관성 유지의 가치로 3계층을 짠다.
Octobatch: Python 21,000줄, 약 75시간(7주), 자동화 테스트 1,000개를 Claude Code 와 Gemini 로 설계·구현·검증했다.
Batch API: 실시간 API 대비 비용 50%, 100단위 이상에서 50% 더 빠른 병렬 처리, 레이트 제한 완화를 얻었다.
데이터 검증: drunken sailor 시뮬레이션이 예상 50%와 달리 77.5%가 나와, 시드 재초기화로 인한 상관 편향을 Claude 테스트 생성·Gemini 원인 분석·저자의 RNG 지속 수정으로 잡았다.
복잡성 과대평가: 수학식 파이프라인을 Claude 는 3시간+다음 버전 권고했지만, 이미 쓰던 asteval 라이브러리 재활용으로 5분에 끝났다.
코드 편향: AI 가 계층·예외를 계속 추가만 하고 삭제를 제안 안 해, 경험 개발자가 단순화를 강제해야 한다.
아키텍처는 실패에서: 메모리 내 상태 스크립트가 실패하자 깨어남→상태 확인→작업→영속화→종료의 Tick Model 을 도입해 manifest 파일을 진실의 원천으로 삼아 crash recovery 를 확보했다.
워크플로 도구 한계: Airflow·Dagster 는 결정론적 작업을 가정해, LLM 배치에는 스키마 검증·의미 기반 재시도·부분 실패 복구가 따로 필요했다.
도구 중립성: 후반에 Cursor 로 바꿔도 같은 컨텍스트 파일로 바로 생산성이 나와, 성공은 도구가 아닌 습관·관행·가치에 있었다.

왜 읽나AI 에이전트로 실제 규모 있는 코드를 만들려는 개발자에게, 다중 LLM 조율·아키텍처 유지·단순화 강제 같은 실전 오케스트레이션 원칙 레퍼런스.

Stack Overflow Blog 블로그

원문은 여기서 이어서 읽을 수 있어요

원문 읽기

읽음 (0)

·takedown 요청

AI 코딩 에이전트 오케스트레이션 실전 경험기

이 글과 비슷한

학습 에이전트 — AI 두뇌 구축하기

AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

AI Gateway에서 실시간 음성 에이전트 구축하기