CherryScript — 데이터 파이프라인을 위한 커스텀 Python 인터프리터 설계

CherryScript는 데이터 기반 워크플로우 최적화를 위한 커스텀 DSL로, Python 기반 인터프리터로 구현됐다. 일반 Python 인터프리터의 메모리 병목과 AST 트리워킹 성능 문제를 극복하기 위해 스트리밍 렉서, 바이트코드 컴파일, 불변 상태 관리의 세 가지 최적화 전략을 채택했다.

핵심 포인트

Python generator 패턴(yield)을 활용한 스트리밍 지연 렉서로, 전체 소스 파일을 메모리에 로딩하는 기존 렉서의 메모리 병목을 해소했다
AST 트리 워킹 방식 대신 플랫 바이트코드 배열(flattened bytecode)로 전환해 O(1) 룩업 시간을 달성했다
layered dictionary 기반 스코프 심볼 테이블로 스코프 격리를 구현하면서 기본적으로 불변성을 유지한다
세 가지 최적화(렉서/컴파일러/실행기)가 데이터 파이프라인 워크플로우의 성능 병목을 각 단계에서 독립적으로 해소한다

상세 정리

배경: 데이터 기반 워크플로우에서 Python 일반 인터프리터의 메모리 사용과 AST 트리워킹 실행 병목이 문제로 대두됨
렉서 설계: 전통 렉서는 전체 소스 파일을 메모리에 올린 뒤 처리, CherryScript 렉서는 Python yield 기반 스트리밍으로 필요한 시점에 지연 평가
컴파일러 변환: AST를 재귀적으로 순회하는 방식에서 선형 명령어 배열(flat bytecode array)로 전환, 인덱스 기반 O(1) 랜덤 접근 달성
상태 관리: 기본적으로 불변성 유지 원칙, layered dictionary system으로 스코프별 심볼 테이블을 계층적으로 중첩 관리
메모리 격리: 변경 가능한 깊은 복사(deep copy) 대신 격리된 불변 청크로 메모리 오버헤드 감소
최적화 패턴 정리: 실행(AST 트리워킹 → 플랫 바이트코드) + 렉서(전체 파일 로딩 → 스트리밍 지연 평가) + 메모리(변경 가능 깊은 복사 → 격리된 불변 청크)

왜 읽나Python으로 DSL이나 커스텀 인터프리터를 구현하려는 엔지니어에게 렉서/컴파일러/실행기 각 단계의 최적화 패턴과 실제 설계 결정을 보여준다.

Stack Overflow Blog 블로그

원문은 여기서 이어서 읽을 수 있어요

원문 읽기

읽음 (0)

·takedown 요청