pile·
AI / ML·AWS KoreaAWS Korea Tech·

Amazon Bedrock 위에서 Codex와 Claude Code 함께 쓰기: Harness Engineering으로 구현해보기

AWS 기술 블로그의 이 글은 Claude Code(Anthropic)와 Codex(OpenAI)를 Amazon Bedrock에서 함께 운용하는 멀티 에이전트 협업 하네스 설계와 48런 벤치마크 결과를 다룬다. "어떤 도구가 더 나은가"가 아니라 "어떻게 연결해야 더 나은 결과를 내는가"에 답하며, 산출물 전달·리뷰 보관·계측·재시도를 묶은 하네스가 모델 선택보다 협업 성패를 더 크게 좌우한다는 결론을 제시한다.

핵심 포인트
  • Claude Code는 탐색적·대화형 작업과 안정적인 편집 파트너 역할에 강하고, Codex는 단순 명세·비용 민감 작업과 크로스 리뷰어 역할에 강하다.
  • 크로스툴 리뷰(다른 모델 계열이 서로의 코드를 검토)가 단일 도구로는 탐지하지 못한 버그를 잡는다 — 48런 중 유일한 채점 불일치가 hold 규칙 위반이었다.
  • 하네스의 4대 요소: 파일시스템 기반 산출물 전달, reviewN.md 구조화 리뷰 저장, 단계별 스냅샷(sN.html) 계측, STATUS 기반 재개.
  • Amazon Bedrock으로 두 도구를 같은 AWS 계정·리전·거버넌스 아래 묶어 혼용 진입장벽을 최소화했다.
  • 명세 복잡도에 따라 속도 우위가 바뀜 — Breakout(단순 명세)에서 Codex가 73s vs Claude 105s, Tetris(복잡 명세)에서 Claude가 119s vs Codex 215s.
상세 정리
  • 실험 설계: Breakout(요구사항 10개)과 Tetris(15개)를 대상으로 8개 arm × 2 과제 × 3반복 = 48런, 모두 xhigh 추론 강도, Track A 격리 환경에서 수행했다.
  • 협업 토폴로지 4종: 위임(A→B 통째로), 특화(계획→구현→통합), 릴레이(개발→리뷰 지적→원개발자 개선), 핑퐁(개발→리뷰어가 직접 편집 반복).
  • Claude 행동 패턴: 정찰 없이 700~800줄을 단일 패스로 작성, 자가 검증은 정적 수준(실행 안 함). 일관성은 높지만 런타임 버그 잔존.
  • Codex 행동 패턴: pwd/ls로 워크스페이스 정찰 후 실제 실행으로 검증, 자발적 리팩터링. 탄탄하지만 때로 검증 생략.
  • 크로스 리뷰 — Codex가 Claude 코드를 검토할 때(R1): 하드드롭 후 점수 미갱신(Stale-HUD), 보드 상단 게임오버 미발동(Top-out 누락), Claude 수정이 만든 Dead-code 회귀를 각각 적시했다.
  • 크로스 리뷰 — Claude가 Codex 코드를 검토할 때(R2): 대부분 PASS, 공이 벽돌을 터널링할 수 있는 속도 조건을 수치로 계산해 지적했다.
  • 핑퐁 vs 릴레이: Claude 편집 단계는 매 라운드 변화하지만, Codex 편집 단계는 컷오프 현상으로 때로 변경 0 — 편집 파트너로는 Claude가 안정적이다.
  • 하네스 구현: run_matrix.sh → run_one.sh → lib.sh(4 안전장치) → run_claude/run_codex 계층 구조, 결과는 index.html·스냅샷(sN.html)·리뷰(reviewN.md)·비용 JSON·STATUS 파일로 저장.
  • 안전장치 4종: 모델 ID 어서트, 재시도+지수 백오프(Bedrock throttle 대응), 산출물 게이트(기대 결과물 검증), STATUS 기반 재개(중단 후 이어붙이기).
  • Bedrock 설정: Codex는 config.toml에 model_provider="amazon-bedrock", Claude Code는 CLAUDE_CODE_USE_BEDROCK=1 + ANTHROPIC_MODEL 환경변수. 48런 동안 사람 개입 없이 6시간 이상 무인 실행, 실패 0건.
왜 읽나멀티 에이전트 코딩 협업 하네스를 직접 구현하려는 AI 엔지니어에게 토폴로지 선택, 버그 탐지 패턴, Amazon Bedrock 통합까지 48런 실험 기반의 실전 레퍼런스다.
AWS Korea
AWS Korea Tech 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2