인프라 / DevOps·
Meta Engineering·
Lights Out, Systems On: 즉각적인 전력 손실 대비 검증
데이터센터 전체 전력 손실 시 Twine 오케스트레이터 제어 평면 서비스들이 순환 의존성(Ouroboros)과 Boomerang 효과로 복구에 실패하는 문제.
#kubernetes#ci-cd#reliability+2
데이터센터 전체 전력 손실 시 Twine 오케스트레이터 제어 평면 서비스들이 순환 의존성(Ouroboros)과 Boomerang 효과로 복구에 실패하는 문제.
추천 시스템의 검색 컴포넌트(ANN, 필터링, 재순위화)가 독립 마이크로서비스로 분리되어 버전 불일치, 네트워크 지연, 통합 사이클 수주 이상 누적.
Meta의 MySQL 기반 social graph ingestion은 petabyte 규모와 엄격한 landing latency 요구가 커지며 레거시 파이프라인 안정성이 한계에 닿았다.
Messenger의 E2EE 백업은 기기 분실, 기기 교체, 장기 미접속 상황에서 일부 메시지가 백업에 늦게 반영될 수 있다.
WhatsApp과 Messenger의 종단 간 암호화 백업은 복구 코드를 Meta나 클라우드 제공자가 볼 수 없게 보호해야 한다.
Facebook Groups 검색은 키워드 일치에 의존해 자연어 의도와 커뮤니티 지식 사이의 간극이 컸다.
초대규모 인프라의 성능 회귀와 효율화 기회는 수작업 조사 시간이 병목이 되어 전력 낭비가 누적됐다.
양자 컴퓨터와 store-now-decrypt-later 공격에 대비해 대규모 시스템의 공개키 암호를 점진적으로 전환해야 했다.
Meta의 WebRTC fork가 upstream과 벌어져 50개 이상 사용처에서 보안, 성능, 업그레이드 비용 문제가 커졌다.