시멘틱 컨텍스트 OS 설계: 에이전트 시스템의 토큰 스터핑을 넘어
LY Corporation Tech-Verse 2026에서 발표된 이 글은 LLM 기반 에이전트 시스템에서 컨텍스트 창을 단순히 더 크게 늘리는 것만으로는 한계가 있다는 문제의식에서 시작한다. 어텐션 희석, 컨텍스트 부패, 규칙 충돌 등 장기 실행 에이전트의 구조적 문제를 해결하기 위해 AST 기반 가지치기와 VFS 추상화를 결합한 시멘틱 컨텍스트 OS 아키텍처를 제안한다.
LY Corporation Tech-Verse 2026에서 발표된 이 글은 LLM 기반 에이전트 시스템에서 컨텍스트 창을 단순히 더 크게 늘리는 것만으로는 한계가 있다는 문제의식에서 시작한다. 어텐션 희석, 컨텍스트 부패, 규칙 충돌 등 장기 실행 에이전트의 구조적 문제를 해결하기 위해 AST 기반 가지치기와 VFS 추상화를 결합한 시멘틱 컨텍스트 OS 아키텍처를 제안한다.
경농(주)이 스마트팜 앱 '파밍노트'에서 농약 제품 이미지를 촬영하면 자동으로 제품 정보를 찾아주는 AI 인식 시스템을 구축한 과정을 다룬다. 약 4,000종의 유사한 농약 제품명을 흐릿한 사진·오타·디자인 폰트에서도 정확히 식별하기 위해 Vision LLM + TypoCorrector + 계층적 Fallback 검색 + LLM Reranker 4단계 파이프라인을 설계했다.
Spotify는 7만 개 이상의 데이터셋을 보유한 조직에서 자연어 질의를 신뢰 가능한 SQL로 변환하는 데이터 어시스턴트 Vedder를 구축했다. 핵심 문제는 LLM에 스키마만 넣는 방식이 컨텍스트 윈도우 한계와 도메인 지식 공백으로 신뢰할 수 없는 결과를 낳는다는 점이었다. 이를 해결하기 위해 도메인 전문가 지식을 구조화해 인코딩하는 컨텍스트 레이어를 설계했으며, 2025년 8월 출시 이후 2,100명 이상이 13,000건 이상의 대화에서 활용했다.
대형 언어 모델의 신뢰성 문제는 단일 원인이 아니라 세 가지 별개의 구조적 실패 모드에서 비롯된다. 저자는 500년간의 저널리즘 관행에서 도출한 엔지니어링 프레임워크로 각 실패 모드에 대응하는 방법을 제시한다. 프롬프트 엔지니어링만으로는 이 구조적 문제들을 해결할 수 없으며, 아키텍처 수준의 설계가 필요하다.
번역가 이력서 10만 건에서 "더빙 경력 있는 영어/스페인어 원어민" 같은 자연어 쿼리를 AND/OR/NOT 복합 조건으로 정확히 변환하지 못한다.
기존 상품명 키워드 매칭 검색으로 원료명·제형 기반 쿼리 시 검색 실패, 구매 포기 증가.
벡터 검색이 "질문과 의미적으로 유사한" 문서만 찾아, 단어는 달라도 구조적으로 연결된 핵심 리스크를 놓치는 한계를 GraphRAG 로 푸는 방법을 다룬다. AWS GraphRAG Toolkit 이 Amazon Neptune 그래프와 OpenSearch 임베딩을 결합해 엔티티·관계를 따라가며 검색하는 구조와, 두 가지 검색기의 선택 기준을 코드까지 짚어 설명한다.
하둡 기반 빅데이터 클러스터 장애 시 수동 로그 수집·원인 분석에 3시간 이상 소요되어 야간·주말 대응이 어려웠다.
컬리가 배송 도메인 지식을 LLM 에 주입하려다 마크다운 문서가 쌓이며 토큰 비용과 "lost in the middle"에 부딪혀, 검색 구조를 두 번 갈아엎은 과정을 다룬다. inverted index → 본문 임베딩 → 요약 임베딩+본문 FTS 분업으로 이어지며, 결국 "무엇을 모델에 맡기고 무엇을 도구·사람에 분담할지 선을 옮긴 작업"이라는 결론에 닿는다.
콘텐츠 번역가 10만 명을 자연어로 검색하려면 BM25 키워드와 벡터 의미 검색을 동시에 잘 다뤄야 한다. 기존 PostgreSQL 검색은 nDCG@10 0.90 목표에 미달.
AI 할루시네이션은 모델이 아니라 데이터 파이프라인 결함의 결과. PoC 에서 90% 정확도였던 모델이 프로덕션에서 실패하는 이유.
kt cloud 는 사내 데이터/관제 업무에서 Jira/Salesforce/사내문서 산재, Splunk SPL 전문인력 의존, 관제요원 숙련도 편차 같은 비효율을 겪었다.
RAG 애플리케이션의 한국어 검색에서 벡터 검색만으론 고유명사·전문용어 누락과 조사 변화 매칭에 약하다.
AI 에이전트를 다양한 소프트웨어 시스템·데이터 소스와 연결하려면 API별 커스텀 설정이 필요해 통합 복잡도가 급증한다.
대량의 개발 문서 검색에 시간이 많이 들고, 사내 전문가 상담도 비효율적이다.
기업이 자체 AI 서비스를 구축하려면 모델 선정/RAG/안전 가드/배포/운영을 분리해서 다뤄야 하는데 각 단계가 흩어져 있어 체계화가 어렵다.
기업·공공기관은 AI 도입 단계를 지나 ‘어떻게 안정적으로 운영할지’와 PoC 정체·보안 인증 문제를 풀어야 했다.
AI 세션 수십 개를 병렬로 관리하다 보면 30분이 지나면 컨텍스트를 잃는 기억 단절 문제가 발생한다.
ALF AI 챗봇을 도입할 때 상담 프로세스를 처음부터 정의하느라 시간이 오래 걸렸다.
코드만 보고 의미 있는 테스트를 자동 생성하기는 어렵다. LLM 에 맡기면 hallucination 으로 부정확한 케이스를 만든다.