pile·
AI / ML·롯데ON롯데ON·

Agentic AIOps — RCA 에이전트 ‘SentryOn’ 도입기 (feat. Strands SDK)

롯데ON TechOps팀이 AWS EKS MSA 환경의 장애 원인 분석(RCA)을 자동화하기 위해 AI 에이전트 'SentryOn'을 구축했다. AWS 오픈소스 Strands Agent SDK와 Amazon Bedrock Claude 모델을 기반으로, 인프라·DB·APM·로그를 동시에 교차 검증하던 수작업을 AI가 대체한다. 도입 2개월 만에 24/365 1차 분석이 가능해졌고 MTTD가 향상됐다.

핵심 포인트
  • Multi-Agent에서 Single Agent로 전환: Orchestrator+전문Agent 구조는 라우팅 복잡성·스키마 정의 어려움·TTFT 저하로 포기하고, 단일 에이전트로 재설계해 응답 품질과 속도를 확보했다.
  • 사내 도메인 지식 주입: 시스템 프롬프트에 LotteON 인프라 컨텍스트를 주입해 에이전트가 서비스명·아키텍처 관계를 시니어 엔지니어 수준으로 이해하도록 설계했다.
  • 대용량 데이터 정제: Whatap 수십MB JSON은 jq CLI를 LLM이 직접 호출해 동적 쿼리를 구성하고, Elasticsearch 로그는 에러 패밀리로 압축해 컨텍스트 한도 내에서 처리했다.
  • Skill Indexing으로 프롬프트 최적화: Datadog 메트릭 플레이북을 별도 Skill로 분리해 필요 시에만 로드, 불필요한 컨텍스트 소모를 줄였다.
  • Bedrock 프롬프트 캐싱: cache_config strategy="auto" 적용으로 캐시 히트 시 비용 최대 10배 절감. Strands SDK v1.38.0 버그 패치 후 히트율이 안정됐다.
상세 정리
  • 배경: AWS EKS MSA 환경에서 장애 발생 시 DevOps·DBA·개발자가 각각 인프라·DB·APM·로그를 동시에 확인해야 해 업무 외 시간에는 대응에 명확한 한계가 있었다.
  • 목표 설정: 24/365 가동 가능하고 시니어 엔지니어 수준의 도메인 지식을 갖춘 RCA 에이전트를 만들어 장애 시 우선 확인할 병목 지점을 빠르게 짚어주는 것.
  • Strands SDK 선택: AWS가 오픈소스로 공개한 Strands Agent SDK 채택. Agent Loop 구조로 에이전트가 목적 달성까지 커스텀 Tool을 반복 호출하며 스스로 판단한다.
  • Multi → Single Agent 전환: 초기 Multi-Agent 설계에서 Orchestrator 라우팅 규칙 최적화, 전문 에이전트 간 Output 스키마 정의(어떤 정보를 선별할지 기준 잡기 어려움), TTFT 느림이 누적돼 Single Agent로 전환했다. 전환 후 TTFT와 응답 품질 모두 만족 수준에 도달했다.
  • 도메인 지식 설계: 시스템 프롬프트에 <LotteOn_Infrastructure_Context> 태그로 서비스명·아키텍처 관계를 주입. Claude가 장애 상황에서 실제 엔지니어처럼 서비스 간 연관을 추론하도록 했다.
  • Whatap 데이터 처리: 수십MB JSON을 LLM에 직접 전달 시 컨텍스트 초과. jq CLI를 도구로 등록하고 LLM이 상황을 추론해 jq 쿼리를 동적으로 구성, 의심 데이터를 다각도로 조회하는 구조로 해결했다.
  • Elasticsearch 로그 압축: 동일 스택 트레이스 반복으로 컨텍스트 낭비. UUID·Timestamp·traceId를 정규식으로 정규화하고, 같은 패턴의 에러를 에러 패밀리로 묶어 signature·count·first_seen·error_class 4개 필드만 반환했다 (예: ReadTimeoutException 87건).
  • Skill Indexing 설계: datadog-metric-playbook Skill을 SKILL.md + references 폴더 구조로 분리. SKILL.md에는 분류 규칙과 어떤 reference를 열어야 하는지만 기재해, 필요한 순간에만 해당 지식이 컨텍스트에 로드되도록 최적화했다.
  • 프롬프트 캐싱 적용: Bedrock Claude에 cache_config(strategy="auto")와 cache_tools="default" 설정. 캐시 히트 시 비용 최대 10배 절감 + 지연시간 단축 효과를 확인했다.
  • SDK 버그 대응: 초기 캐시 히트율이 40%대로 급락하는 이슈를 Strands SDK v1.38.0 패치로 해결했다. SDK 버전 고정 관리의 중요성을 확인한 사례.
  • 도입 2개월 성과: 24/365 빠른 1차 분석·MTTD 향상 외에, 에이전트가 MSA 아키텍처 내비게이터 역할을 하며 신규 개발자의 서비스 파악을 돕는 예상 외 효과도 나타났다.
  • 현재 한계: Read-Only 모드로 분석과 제안만 가능 — 향후 승인 기반 액션 자동화 도입 계획. 과거 장애 맥락을 참조하는 롱텀 메모리 구조도 미비 상태로 과제로 남았다.
왜 읽나AWS EKS MSA 환경에서 Strands SDK와 Bedrock Claude로 AIOps 에이전트를 구축한 실전 사례로, Single/Multi-agent 선택·대용량 데이터 정제·Skill Indexing·프롬프트 캐싱까지 구체적인 설계 결정을 담아 AI 에이전트 엔지니어링이나 SRE 자동화를 고민하는 엔지니어에게 유용하다.
롯데ON
롯데ON 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2