pile·
기타·한글과컴퓨터한글과컴퓨터·

워드 DOC 파일 포맷의 구조와 이해 (1)

문제기업·공공기관에는 여전히 많은 .doc 문서가 남아 있지만 OLE2 바이너리라 눈으로 구조를 확인하기 어렵고, 개발자가 내부 데이터를 파싱하기가 까다로웠다.
접근마이크로소프트의 공식 명세 [MS-DOC]를 따라 FIB로 구성 요소 위치를 잡고, Character Position·PLC·STTB·RG 같은 데이터 집합 구조를 단계적으로 읽으며 C++ 코드로 바이너리 데이터를 파싱했다.
결과Clx 예제를 통해 실제 텍스트 정보 추출 과정을 단계별로 보여 줘, DOC 포맷이 처음인 개발자도 내부 구조를 따라 읽고 직접 해석할 수 있는 기초를 마련했다.
한글과컴퓨터
한글과컴퓨터 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 기타·stackoverflow-blogStack Overflow Blog·

    Selenium vs Cypress vs Playwright — 테스트 자동화 프레임워크 선택 가이드 2026

    2026년 기준 Selenium, Cypress, Playwright 세 가지 테스트 자동화 프레임워크를 아키텍처, 안정성, 비용, 브라우저 지원, 언어 지원 측면에서 비교한다. 세 프레임워크는 브라우저 제어 방식에서 근본적으로 다르며, 각각의 강점이 다른 사용 시나리오에 최적화되어 있다.

    #e2e-testing#test-automation#selenium+2