pile·
AI / ML·spotify-engSpotify Engineering·

Background Coding Agents — 다운스트림 소비자 데이터셋 마이그레이션 가속화 (Honk Part 4)

Spotify의 배경 코딩 에이전트 Honk 시리즈 4편으로, 대규모 데이터셋 마이그레이션을 에이전트로 자동화한 사례다. 핵심 결론은 에이전트 효율이 결국 데이터 생태계의 표준화와 자동 검증 기반에 좌우된다는 것이다.

핵심 포인트
  • 직접 다운스트림 파이프라인 약 1,800개와 수천 개의 간접 파이프라인을 6개월 안에 마이그레이션해야 했고 수동으로는 약 10 엔지니어링주가 들 규모였다.
  • BigQuery Runner, dbt, Scio 세 프레임워크가 섞여 있었고 이 중 Scio는 팀별 편차가 커 자동화를 포기했다.
  • 사람용 마이그레이션 가이드를 Claude가 재구성하게 한 자동 컨텍스트 생성은 정보가 부족해 필드 매핑 오류가 잦았다.
  • 표 형식으로 필드 매핑을 명시한 수작업 컨텍스트로 전환하자 dbt와 BigQuery Runner 대상에서 240개의 자동 마이그레이션 PR을 성공적으로 냈다.
상세 정리
  • 배경: 6개월 기한에 1,800개 직접 파이프라인과 수천 개 간접 파이프라인이 걸려 있었고 수동 진행은 약 10 엔지니어링주로 추정됐다.
  • 대상 파악: Backstage의 엔드포인트 lineage 플러그인으로 다운스트림 소비자를, Codesearch로 대상 레포를 식별하고 Fleetshift로 마이그레이션을 오케스트레이션했다.
  • Scio 포기: 프레임워크 유연성이 커 팀마다 구현이 크게 달라, 모든 변형을 포괄하는 프롬프트 작성이 불가능하다고 판단해 자동화 대상에서 제외했다.
  • 자동 컨텍스트 실패: 인간용 가이드를 그대로 재구성시키자 컨텍스트가 부족해 필드 매핑이 자주 틀렸다.
  • 컨텍스트 엔지니어링: 모든 필드 매핑을 표로 명시하고 판단이 필요한 필드는 바꾸지 않고 인간 가이드 링크를 주석으로 달았다.
  • 실행 격리: Honk는 Claude Skills나 MCP를 쓰지 않고 주어진 컨텍스트에만 접근하도록 제한했다.
  • 도구 분업: Backstage가 lineage 시각화와 Codesearch 통합을, Fleetshift가 PR 생성·모니터링·진행 UI를, Honk가 실제 코드 변환을 맡았다.
  • 결과: dbt와 BigQuery Runner 대상으로 240개 PR을 자동 생성하고 배포했다.
  • 한계: 두 프레임워크의 레포 대부분이 빌드 타임 단위 테스트가 없어 Honk의 자동 검증이 불가능했고 다운스트림 팀의 수동 테스트에 의존해야 했다.
  • 향후: JIRA 티켓과 문서를 자동으로 읽는 컨텍스트 수집 기능, 데이터 생태계 표준화, 레포 전반의 테스트·검증 요구 강제를 계획한다.
왜 읽나코딩 에이전트로 대규모 마이그레이션을 자동화하려는 데이터 플랫폼 엔지니어에게 컨텍스트 엔지니어링과 검증 기반의 중요성을 실증으로 보여준다.
spotify-eng
Spotify Engineering 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2