[AI타임즈] 사이냅소프트, ‘에이전틱 OCR’ 시대 연다…”성능 넘어 ROI에 초점”

2026-01-26 | OCR, 보도자료, 사이냅 이야기, 제품 이야기

안녕하세요. Document AI 기업 사이냅소프트입니다.

최근 사이냅소프트가 공개한 차세대 OCR 신제품,
‘OCR IX(Intelligence Document to X)’의 특집기사가 공개됐습니다.

기사에서는 문서의 유형과 난이도에 따라 VLM, 폼메이커, KVT 등 세 가지 엔진을 최적으로 조합해
비용은 낮추고 효율은 극대화하는 ‘에이전틱 OCR’ 기술을 소개하고 있습니다.

특히 VLM으로 초기 구축 시간을 획기적으로 단축하고,
자동 라벨링을 통해 저비용 엔진으로 전환하는 하이브리드 전략을 통해
기업의 ROI(투자수익률)까지 확실하게 보장한다는 점을 중심으로
사이냅소프트만의 차별화된 경쟁력을 다루고 있습니다.

단순 이미지 판독을 넘어 기업의 문서를 고품질 AI 학습 자산으로 바꿔주는 기술!

▼ 아래 기사에서 자세한 내용을 확인해 보세요.  😊

[AI타임즈] 사이냅소프트, ‘에이전틱 OCR’ 시대 연다…”성능 넘어 ROI에 초점”

사이냅소프트(대표 전경헌)가 차세대 광학문자인식(OCR) 신제품 ‘OCR IX(Intelligence Document to X)’ 공개했다.

기존 대표 AI 솔루션 ‘사이냅 OCR 프로’는 지난해 9월 누적 레퍼런스 200건을 돌파할 정도로 인기를 끌었다. 그러나 OCR IX는 단순한 기술적인 업그레이드를 넘는다. ROI(투자수익률)에 초점을 맞춘 가장 빠르고 경제적인 솔루션으로 소개했다.

24일 사이냅소프트 관계자는 이를 “비전언어모델(VLM)과 폼메이커, 키밸류트레이너(KVT) 등을 전략적으로 조합한 솔루션”이라고 소개했다. 문서 유형에 따라 세가지 엔진을 선택적으로 활용할 수 있는 “에이전틱 OCR”이라는 설명이다.

우선, 새 제품은 VLM 추가로 비정형 서식에 대한 인식 능력을 향상했다. 사전 학습한 모델로 복잡한 문서의 맥락을 이해, 안정적인 키밸류 추출이 가능해졌다. 이에 따라 다양한 문서 양식을 별도 학습하지 않아도 기관과 기업은 바로 모델 도입이 가능하다.  

비용과 효율을 따지면, 컴퓨팅이 필요한 VLM보다 다른 엔진이 효과적일 수도 있다. 이를 위해 폼메이커와 KVT를 결합한 것이다.


폼메이커는 주민등록증, 사업자 등록증 등 항목이 고정된 정형 문서에 강하다. GPU가 필요 없을 정도의 적은 연산량으로 구동되며, 처리 속도는 밀리초(ms) 단위에 불과하다. 

대량의 데이터가 필요 없이, ‘템플릿 정의’ 방식으로 학습할 수 있다. 운영 비용도 가장 낮다.

이어 KVT는 구조나 양식이 비교적 다양한 ‘반정형 문서’에 유용하다. 항목의 위치는 달라도, 구조가 일정한 명함이나 세금계산서 등의 형식을 잘 인식한다. 중소형 GPU가 필요하며, 처리 속도는 1초 이하다. 학습을 위해 100건의 샘플이 필요하다.

VLM은 이 두 엔진으로 처리가 어려운 각종 계약서나 처방전, 기술 문서 등 구조까지 불규칙한 문서를 처리하는 것이다. 1~3초 내에 처리가 가능하다.

VLM은 텍스트 단순 인식을 넘어, 문맥을 파악해 키-밸류 값을 자동으로 매칭하는 것이 강점이다. 문서를 ‘처방전’으로 일단 인식하면, 텍스트를 ‘처방약 단위’로 판단해 ‘PenVK 5Oo mg’이라는 오타도 ‘PenVK 500 mg’으로 보정하는 식이다. 제로샷 방식으로, 사전학습에 포함되지 않은 항목도 정확히 추출할 수 있다.

하지만, VLM은 고성능 GPU가 필요하며 운영 비용도 비교적 높다. 이처럼 문서 유형에 따라 필요한 엔진을 선택적으로 적용하기 위해 세가지 엔진을 결합한 것이다. 

사이냅소프트 관계자는 “금융기관이 하루 수만건의 신분증 처리에 VLM을 투입하는 것은 낭비”라며 “이 경우에는 폼메이커가 VLM보다 10배 이상 빠르고 저렴하다”라고 설명했다. 

이는 최근 업계의 주 관심사인 ‘AI의 활용성’을 반영하는 것이기도 하다. ROI를 위해서는 최신 기술(VLM)만 솔루션인 것처럼 팔리는 상황을 경계해야 한다는 것이다.

여기에 사이냅소프트의 핵심 전략은 케이스에 맞는 엔진을 활용하는 것을 넘어, 이들의 조합으로 비용을 더 낮추는 방법이라고 전했다. “초기 구축은 VLM으로 시작하고, 학습 데이터가 100건 이상 쌓이면 KVT로 전환하는 전략”이라는 내용이다.

만약 어떤 회사가 수백종의 견적서를 자동처리하고 싶다고 요청하면, 1단계는 VLM을 ‘즉시’ 투입한다. 

기존 OCR 모델은 수백종의 양식을 일일이 라벨링하고 학습하는 데 수개월이 걸렸다. 그러나, 사전학습한 VLM은 바로(제로 샷) 견적서의 금액과 품목 등을 정확히 읽어낼 수 있다.

이어 2단계는 데이터 축적과 ‘자동 라벨링’이다. VLM이 업무를 수행하면, 읽어 들인 견적서 이미지와 추출된 정답 데이터도 쌓이게 된다. 이는 자동으로 KVT 학습을 위한 고품질의 데이터가 되는 것이다. 인간 라벨링을 통한 시간과 비용 소모는 없어진다.

마지막으로 3단계는 KVT가 해당 양식의 견적서를 전담하는 것이다. VLM의 정확도를 유지하며 빠르고 저렴한 비용으로 기존 업무를 대체할 수 있게 되는 것이다.

이를 두고 “새로운 양식은 VLM으로, 검증된 양식은 KVT로 전환하는 하이브리드 구조”라고 말했다. 결과적으로 OCR 도입 기간은 짧아지고, 비용은 줄어들며, 정확도를 유지할 수 있다고 강조했다. 

여기에서 ‘어떤 부분을 어떤 엔진으로 처리할지’ 등을 처리하는 것이 ‘에이전틱 OCR’ 기술이다. 

기존 OCR 방식은 ‘문서 분석→추출 항목 정의→라벨링/학습→평가’의 과정을 거쳤다. 특히 사용자가 원하는 결과를 정확하게 뽑아내려면, 상세한 프롬프트가 필요했다. 예를 들어, “이 견적서 읽어줘”라고 하면 AI는 일반 문서처럼 길게 요약하거나 필요 없는 정보까지 포함할 수 있다. 따라서 견적서는 “금액 항목은 숫자로만 뽑아 줘. 날짜는 YYYY-MM-DD 형식으로 해줘. 표 안에 있는 비고란은 무시해”처럼 각 데이터 항목마다 규칙을 프롬프트로 지시해야 했다.

만약 문서 종류가 100종이면, 100개의 프롬프트가 필요하다는 말이다. “VLM도 성능은 뛰어나지만, 제대로 된 결과를 얻기 위해서는 번거로운 작업이 필요했다”라고 전했다.

에이전틱 OCR 기술을 활용하면 문서 유형을 판별해 OCR 엔진을 선택하는 것은 물론, 자동 서식 제작과 자동 프롬프트 생성, 자동 라벨링 등까지 처리한다.

AI 학습 데이터 구축을 위해 이 기술을 도입하는 곳도 많다고 전했다. 전경헌 사이냅소프트 대표는 “기업 내부 방대한 비정형 문서를 AI가 즉시 학습할 수 있는 고품질 자산으로 전환하는 데에도 초점을 맞추고 있다”라고 전했다.

이처럼 사이냅소프트의 새로운 솔루션은 최신 기술의 도입을 넘어, 이를 조합하고 응용해 최적의 사례를 만들어냈다는 것이 핵심이다. 이 때문에 수요 기업과 기관도 빠르게 확장 중이다.

전경헌 대표는 “에이전틱 OCR 기술은 단순 이미지 판독을 넘어 문서를 구조화된 데이터로 완벽하게 변환해, 기업 고유의 대형언어모델(LLM) 구축을 위한 핵심 역할을 할 것”이라고 강조했다.

출처 : AI타임스(https://www.aitimes.com)

 

기사 원문 보기

[AI타임즈] 사이냅소프트, ‘에이전틱 OCR’ 시대 연다…”성능 넘어 ROI에 초점”

사이냅 문서뷰어

어디서 어떻게 사용되고 있을까요?

사이냅 문서뷰어의 적용사례를 만나보세요

[개인정보 수집, 이용에 대한 동의 절차]

사이냅 문서뷰어 적용사례를 만나보세요

차원이 다른 HTML5 웹에디터

사이냅 에디터

사이냅 에디터가 어디에 활용될 수 있을까요?
다양한 적용사례를 만나보세요

[개인정보 수집, 이용에 대한 동의 절차]

한 차원 높은 HTML5 웹에디터를 만나보세요