pile·
DB / 데이터·stackoverflow-blogStack Overflow Blog·

LLM 문제는 사실 데이터 문제다

문제비정형·미문서화된 프로덕션 데이터 위에 LLM 을 얹으면 부서마다 다른 customer 정의, 스키마 변경 미공지, 소유자 불명, 데이터 lineage 부재가 그대로 답변 품질을 망친다.
접근Open Metadata 로 Snowflake·Hadoop·MySQL·Postgres·Kafka 스키마를 자동 스캔하고, RDF 기반 시맨틱 그래프로 테이블 소유와 관계를 표현한다. 컬럼 단위 lineage 를 따라 업스트림을 거슬러 올라가며, 인프라 SLA 처럼 데이터 파이프라인을 tier 로 묶어 온콜 체계까지 붙인다.
결과Uber 의 tips 파이프라인 장애 후 탐지 사례, 신입 분석가 온보딩 3–4개월 단축, 미사용 대시보드 정리로 16,000 개 정돈 같은 효과를 든다.
stackoverflow-blog
Stack Overflow Blog 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2