[와이드경제]“HWP, 굳이 PDF로 바꿀 필요 없다”… 사이냅소프트, 공공 데이터 혁신의 ‘진짜 해법’ 제시
안녕하세요. Document AI 전문 기업 사이냅소프트입니다.
정부의 공공 데이터 개방 전략과 관련하여, “HWP 문서를 굳이 PDF로 바꿀 필요 없이” 원본 그대로 완벽하게 분석하는 사이냅소프트의 ‘진짜 해법’이 언론에 보도되었습니다.
이번 보도에서는
📌 PDF 변환 없는 압도적 효율: HWP를 PDF로 바꾸고 다시 텍스트를 추출하는 비효율적인 이중 작업 없이, HWP·MS Office 등 원본 문서를 직접 분석하여 AX 구현 시간과 비용을 획기적으로 절감합니다.
📌 숨겨진 속성까지 정교한 추출: 텍스트와 표, 레이아웃은 물론 생성자, 생성일자, 수정일자 등 문서의 상세 메타데이터까지 빠짐없이 추출하여 데이터의 이력 관리와 투명성을 보장합니다.
📌 LLM 학습 최적화 데이터: Markdown, JSON 등 4종 포맷 자동 변환과 출처 하이라이팅 기술을 통해, RAG 시스템의 환각 현상을 잡고 AI 학습에 즉시 활용 가능한 고품질 데이터를 제공합니다.
공공 데이터 혁신, ‘변환’ 말고 ‘직접 분석’이 정답입니다!
사이냅소프트는 가장 확실한 기술력으로 공공과 기업의 성공적인 AI 전환(AX)을 지원합니다.
▼ 아래 기사에서 자세한 내용을 확인해 보세요. 😊
***********************************************************************
“HWP, 굳이 PDF로 바꿀 필요 없다”… 사이냅소프트, 공공 데이터 혁신의 ‘진짜 해법’ 제시
– 정부, AI 학습 위한 공문서(HWP) 데이터화 추진… PDF 재변환 등 비효율 우려
– 사이냅소프트 ‘도큐애널라이저’, PDF 변환 없이 HWP·MS Office 등 원본 문서 직접 분석
– 마크다운·JSON 등 4종 포맷 변환 및 ‘출처 하이라이팅’ 기술로 RAG 정확도 극대화

[이미지 : 공공/정부기관 문서를 구조 분석하고 있는 사이냅 도큐애널라이저 ]
[2025년 12월 19일] 정부가 AI 시대 국가 경쟁력 확보를 위해 공문서의 데이터 개방을 핵심 과제로 발표한 가운데, 이를 위해 제시된 ‘PDF 변환’ 방식이 실무적인 데이터 활용 측면에서 한계가 드러나고 있다. 공공문서의 대부분을 차지하는 HWP를 PDF로 변환하더라도 데이터가 불투명한 이미지 형태로 저장될 경우, AI 학습을 위해 다시 텍스트를 추출해야 하는 ‘이중 작업’이 불가피하기 때문이다.
이에 Document AI 기업 사이냅소프트(대표 전경헌)는 번거로운 PDF 변환 과정을 거치지 않고 HWP 원본 문서에서 바로 데이터를 완벽하게 추출하는 ‘사이냅 도큐애널라이저’를 통해 이러한 기술적 난제를 해결할 수 있다고 밝혔다.
■ HWP부터 엑셀, 이미지까지… “포맷 가리지 않는 접근성“
‘사이냅 도큐애널라이저’는 복잡한 문서 구조를 쉽게 분석하고, 가치 있는 자산으로 만드는 문서 구조 분석 솔루션이다. 정부 공문서인 아래아한글(HWP, HWPX)은 물론, MS오피스(DOC/DOCX, XLS/XLSX, PPT/PPTX), 공공기관 개방형 포맷인 ODT, TXT파일까지 원본 포맷 그대로 분석할 수 있다. 심지어 PDF나 이미지(IMG) 파일 내의 시각적 정보도 OCR 및 문서 스타일 인식을 통해 구조화된 데이터로 추출해낸다. 이는 “PDF로 변환해야만 기계가 읽을 수 있다“는 기존의 편견을 깨는 기술이다.
■ 표, 이미지, 복잡한 레이아웃도 완벽 분석… LLM 학습 최적화
이 솔루션은 단순한 텍스트 추출을 넘어 원문 문서내의 문단 정보, 표(Table), 이미지, 객체 정보를 정교하게 식별한다. 특히 문서가 가진 고유한 메타데이터(문서 제목, 생성자, 생성일자, 수정일자 등)와 상세 속성 정보까지 빠짐없이 추출할 수 있어, 단순 데이터 확보를 넘어 데이터의 이력 관리와 신뢰성 확보가 필수적인 공공 데이터 구축에 최적화되어 있다. 분석된 데이터는 AI 학습 및 DB 구축 목적에 따라 ▲Markdown ▲JSON ▲XML ▲LaTeX 등 4가지 형식의 머신 리더블 데이터로 자동 변환된다.
특히 복잡한 표나 다단 편집이 많은 문서도 읽기 순서와 속성을 정확히 파악하여 레이아웃을 구성하므로, 기업은 별도의 전처리 없이 고품질의 데이터를 거대언어모델(LLM) 학습과 추론에 즉시 활용할 수 있다.
■ RAG 시스템 ‘환각’ 잡고, 공공·민간 레퍼런스 확보
현재 도큐애널라이저는 한국주택금융공사 등 공공기관과 S디스플레이, H시스템, H건설 등 주요 대기업에 도입되어 있으며, 최근 협업툴 기업 토스랩(잔디)에 공급되는 등 일반 기업용 SaaS 시장으로까지 도입 범위를 넓히며 기술력을 인정받고 있다.
사이냅소프트 전경헌 대표는 “정부가 추진하는 데이터 혁신의 핵심은 다양한 형태의 비정형 문서 자산을 얼마나 정확하고 빠르게 정형 데이터로 만드냐에 달려있다”며, “도큐애널라이저는 공공과 기업이 AX 구현에 드는 시간과 비용을 획기적으로 절감하는 가장 확실한 해결책이 될 것”이라고 전했다.
==========================================================
기사 원문 보기
[와이드경제]”HWP, 굳이 PDF로 안 바꿔도…” 사이냅소프트, 공공 데이터 혁신 해법 제시
[인공지능신문]”HWP, 굳이 PDF로 바꿀 필요 없다”… 사이냅소프트, 공공 데이터 혁신의 ‘해법’ 제시
[디지털데일리] 사이냅소프트 “PDF 변환 없이 HWP 데이터로 AI 학습 지원”
[뉴시스]”HWP, 굳이 PDF로 안 바꿔도…” 사이냅소프트, 공공 데이터 혁신 해법 제시
[테크42]사이냅소프트가 제시한 공공 데이터 혁신의 ‘진짜 해법’… HWP 문제 일거에 해결
[네이트]“HWP, 굳이 PDF로 안 바꿔도…” 사이냅소프트, 공공 데이터 혁신 해법 제시