Amazon Bedrock 위에서 Codex와 Claude Code 함께 쓰기: Harness Engineering으로 구현해보기

AWS 기술 블로그의 이 글은 Claude Code(Anthropic)와 Codex(OpenAI)를 Amazon Bedrock에서 함께 운용하는 멀티 에이전트 협업 하네스 설계와 48런 벤치마크 결과를 다룬다. "어떤 도구가 더 나은가"가 아니라 "어떻게 연결해야 더 나은 결과를 내는가"에 답하며, 산출물 전달·리뷰 보관·계측·재시도를 묶은 하네스가 모델 선택보다 협업 성패를 더 크게 좌우한다는 결론을 제시한다.

핵심 포인트

Claude Code는 탐색적·대화형 작업과 안정적인 편집 파트너 역할에 강하고, Codex는 단순 명세·비용 민감 작업과 크로스 리뷰어 역할에 강하다.
크로스툴 리뷰(다른 모델 계열이 서로의 코드를 검토)가 단일 도구로는 탐지하지 못한 버그를 잡는다 — 48런 중 유일한 채점 불일치가 hold 규칙 위반이었다.
하네스의 4대 요소: 파일시스템 기반 산출물 전달, reviewN.md 구조화 리뷰 저장, 단계별 스냅샷(sN.html) 계측, STATUS 기반 재개.
Amazon Bedrock으로 두 도구를 같은 AWS 계정·리전·거버넌스 아래 묶어 혼용 진입장벽을 최소화했다.
명세 복잡도에 따라 속도 우위가 바뀜 — Breakout(단순 명세)에서 Codex가 73s vs Claude 105s, Tetris(복잡 명세)에서 Claude가 119s vs Codex 215s.

상세 정리

실험 설계: Breakout(요구사항 10개)과 Tetris(15개)를 대상으로 8개 arm × 2 과제 × 3반복 = 48런, 모두 xhigh 추론 강도, Track A 격리 환경에서 수행했다.
협업 토폴로지 4종: 위임(A→B 통째로), 특화(계획→구현→통합), 릴레이(개발→리뷰 지적→원개발자 개선), 핑퐁(개발→리뷰어가 직접 편집 반복).
Claude 행동 패턴: 정찰 없이 700~800줄을 단일 패스로 작성, 자가 검증은 정적 수준(실행 안 함). 일관성은 높지만 런타임 버그 잔존.
Codex 행동 패턴: pwd/ls로 워크스페이스 정찰 후 실제 실행으로 검증, 자발적 리팩터링. 탄탄하지만 때로 검증 생략.
크로스 리뷰 — Codex가 Claude 코드를 검토할 때(R1): 하드드롭 후 점수 미갱신(Stale-HUD), 보드 상단 게임오버 미발동(Top-out 누락), Claude 수정이 만든 Dead-code 회귀를 각각 적시했다.
크로스 리뷰 — Claude가 Codex 코드를 검토할 때(R2): 대부분 PASS, 공이 벽돌을 터널링할 수 있는 속도 조건을 수치로 계산해 지적했다.
핑퐁 vs 릴레이: Claude 편집 단계는 매 라운드 변화하지만, Codex 편집 단계는 컷오프 현상으로 때로 변경 0 — 편집 파트너로는 Claude가 안정적이다.
하네스 구현: run_matrix.sh → run_one.sh → lib.sh(4 안전장치) → run_claude/run_codex 계층 구조, 결과는 index.html·스냅샷(sN.html)·리뷰(reviewN.md)·비용 JSON·STATUS 파일로 저장.
안전장치 4종: 모델 ID 어서트, 재시도+지수 백오프(Bedrock throttle 대응), 산출물 게이트(기대 결과물 검증), STATUS 기반 재개(중단 후 이어붙이기).
Bedrock 설정: Codex는 config.toml에 model_provider="amazon-bedrock", Claude Code는 CLAUDE_CODE_USE_BEDROCK=1 + ANTHROPIC_MODEL 환경변수. 48런 동안 사람 개입 없이 6시간 이상 무인 실행, 실패 0건.

왜 읽나멀티 에이전트 코딩 협업 하네스를 직접 구현하려는 AI 엔지니어에게 토폴로지 선택, 버그 탐지 패턴, Amazon Bedrock 통합까지 48런 실험 기반의 실전 레퍼런스다.

AWS Korea Tech 블로그

원문은 여기서 이어서 읽을 수 있어요

원문 읽기

읽음 (0)

·takedown 요청

Amazon Bedrock 위에서 Codex와 Claude Code 함께 쓰기: Harness Engineering으로 구현해보기

이 글과 비슷한

학습 에이전트 — AI 두뇌 구축하기

AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

AI Gateway에서 실시간 음성 에이전트 구축하기