VLM: 정답은 가장 좋은 답이 아니라 문제에 맞는 답
안녕하세요, Document AI 기업 사이냅소프트입니다.
오늘의 소식은 사이냅 OCR에 있는 폼메이커, KVT, VLM을 비교합니다.
에 추가했습니다.](https://www.synapsoft.co.kr/wp-content/uploads/2025/10/ChatGPT-Image-2025년-10월-27일-오후-02_12_47-1024x683.png)
모든 문제에 하나의 답이 있을까요?
올해 VLM(Visual Language Model)의 발전은 대단히 빨랐습니다. 2024년 여름, 아직 추상화 시각 문제에 약했던 모델들은 2025년 초, 문서 처리에 있어서 기존의 딥러닝 OCR 모델들과 시장에서도 경쟁하고 있습니다.
VLM은 문서의 의미 구조와 시각적 맥락을 동시에 이해하는 능력이 향상되며, 다양한 조직이 문서 자동화의 핵심 기술로 주목하고 있습니다. 사이냅소프트 역시 올해 VLM을 [사이냅 OCR Pro](보도자료 링크)에 통합했습니다.
하지만 프로젝트를 진행하면서 실무에서는 특히 VLM 하나만 해결책으로 추천하기 보다는 솔루션을 복합적으로 제시하게 되는데요. 기술 블로그와 논문에서 더 최신 정보와 대시보드 성적을 찾아서 전달하는 역할은 잠시 내려놓고, 실무와 기술 두 가지 이야기를 나란히 이야기해보겠습니다.
1. 폼메이커(FormMaker), 템플릿 기반 접근법의 재발견
머신러닝 시대에도 시장에서 규칙기반 시스템은 여전히 자주 필요합니다. 간단한 문제에 대한 저렴하고 간단한 답이기 때문입니다. 물론 레이아웃과 추출 항목에 대한 조건이 있습니다.
| 조건 | 설명 | 폼메이커 활용 여부 |
| 문서 레이아웃이 고정됨 | 주민등록증, 사업자등록증처럼 위치가 일정함 |
⭕ |
| 문서마다 항목 위치가 달라짐 | 영수증, 자유양식 계약서처럼 위치가 유동적임 |
❌ |
| 항목 구성이 일정함 | 항상 같은 필드 (예: 이름, 생년월일, 주소)가 존재 |
⭕ |
| 항목의 개수가 문서마다 달라짐 | 어떤 문서엔 5개, 다른 문서엔 8개 필드가 있음 |
❌ |
사이냅 OCR의 ‘폼메이커’는 위치와 항목 구성이 일정한 문서에 적합한 규칙 기반 도구입니다. 키워드 박스를 기준으로 상대 좌표를 계산하여 항목을 추출합니다. GUI 환경에서 비개발자도 쉽게 템플릿을 정의할 수 있습니다.
폼메이커는 문서의 레이아웃이 고정된 환경에서 GPU 없이 밀리초 단위로 결과를 산출할 수 있습니다.
예를 들어 주민등록증, 사업자등록증처럼 구조가 변하지 않는 서식에서는 VLM보다 빠르고 저렴합니다.
이는 실제 금융기관 도입 사례에서도 일관된 결과로 확인되었습니다.
📄 참고: Template-based extraction systems (Chen et al., Pattern Recognition Letters, 2023)은 “명확히 정의된 서식에서는 규칙기반 시스템이 최신 딥러닝보다 효율적”이라 분석했습니다.
폼메이커커의 특징:
- 밀리초 단위의 빠른 처리
- OCR 품질에 좌우되지만, 품질이 확보되면 매우 정확
- GUI 기반으로 비개발자도 템플릿 작성 가능
2. KVT(Key-Value Trainer), 경량 딥러닝의 실용적 중간지점
| 조건 | 설명 | KVT 활용 여부 |
| 문서 레이아웃이 완전히 고정됨 | 항목 위치가 동일한 주민등록증, 등본 등 | ⭕(할 수 있지만, 폼메이커가 더 쉽고 저렴한 솔루션일 것) |
| 문서마다 디자인이 달라짐 | 명함, 거래명세서, 세금계산서 등 | ⭕ |
| 항목 구조가 일정함 | 항상 같은 필드(예: 이름, 전화번호, 이메일)가 존재 | ⭕ |
| 항목의 종류나 개수가 변동됨 | 어떤 문서에는 ‘직책’이 없거나 추가 필드가 존재 | ⚪ (부분적 학습 가능) |
| 100건 내외의 샘플로 학습 가능 | 라벨링 된 데이터 준비 필요 | ⭕ |
| 완전 자유 형식 비정형 문서 | 문단 구조나 항목 구분이 없는 문서 | ❌ |
KVT는 항목 구조는 일정하나 서식 형태가 다양한 반정형 문서를 대상으로 합니다. OCR 결과와 이미지를 결합한 멀티모달 입력을 분석하며, 학습·검증·배포를 모두 GUI 환경에서 수행할 수 있습니다.
하루 500건의 명함을 처리하는 영업 조직이 있다고 가정해봅시다. 폼메이로는 불가능합니다. 거래처마다 명함 디자인이 다르기 때문입니다. 그렇다고 VLM을 쓰기엔 부담스럽습니다. 명함은 “이름, 직책, 전화번호, 이메일”이라는 구조가 명확하기 때문에 대규모 언어모델의 추론 능력까지는 필요 없습니다. KVT는 바로 이 지점을 노립니다. 항목 구조가 일정한 문서에서는 100건 정도의 샘플만으로 다양한 양식을 학습할 수 있습니다. 딥러닝의 유연성과 경량 모델의 효율성을 결합한 접근법입니다.
📄 참고: CORD(2021) 벤치마크 기준, 소형 딥러닝 모델은 구조 일관 문서에서 F1-score 92~95% 수준을 기록하며, 대형 언어모델 대비 약 30%의 비용으로 동일 수준 정확도를 달성할 수 있었습니다.
KVT의 특징:
- 항목 구조는 일정하지만 양식이 다양한 반정형 문서에 적합
- 항목당 약 100건 정도의 샘플로 학습 가능
- 중소형 GPU에서 1초 이내 처리
- GUI 기반 관리로 진입장벽이 낮음
3. VLM의 강점과 고려사항
VLM은 문서의 시각적 맥락과 텍스트 의미를 통합적으로 이해합니다. 의료 처방전, 계약서, 기술문서처럼 문맥적 관계를 파악해야 하는 비정형 문서에서 특히 효과적입니다. 대략 다음의 조건을 가진 문서를 대상으로 활용할 수 있습니다.
| 조건 | 설명 | VLM 활용 여부 |
| 문서 레이아웃이 완전히 고정됨 | 항목 위치가 동일한 주민등록증, 등본 등 | ⭕(할 수 있지만, 폼메이커가 더 쉽고 저렴한 솔루션일 것) |
| 문서마다 디자인이 달라짐 | 명함, 거래명세서, 세금계산서 등 | ⭕ |
| 항목 구조가 일정함 | 항상 같은 필드(예: 이름, 전화번호, 이메일)가 존재 | ⭕ |
| 항목의 종류나 개수가 변동됨 | 어떤 문서에는 ‘직책’이 없거나 추가 필드가 존재 | ⭕ (특히 강점) |
| 사전 학습 데이터 없음 | 라벨링 된 데이터 준비가 필요없음, 바로 활용 가능 |
⭕ |
| 의미적 관계 이해 필요 | “Rx 처방”처럼 문맥·시각 정보 통합 추론 |
⭕ |
다만 추론 비용, 속도, 환각(hallucination) 문제가 실무 도입의 주요 고려 요소로 남습니다.
VLM의 강력한 장점

예를 들어 의료 처방전을 처리할 때, 기존 OCR은 ‘Rx’라는 문자를 정확히 읽지만, 그것이 처방 항목을 의미한다는 사실까지는 파악하지 못합니다. 반면 VLM은 이러한 의미적 관계와 시각적 단서를 함께 이해할 수 있습니다. Rx처방 항목 : PenVK500mg 값을 파악하는 것이 훨씬 쉬워집니다.
이런 의미적인 관계를 이해하면 구조가 불규칙한 문서에서도 문맥을 기반으로 추론해 안정적 결과를 낼 수 있습니다. 학습 데이터도 따로 필요하지 않습니다. 데이터 라벨링도, 사전학습도 없이 바로 실전에서 OCR를 활용한다고도 말 할 수 있습니다.
VLM, 딥러닝 OCR로 보완하기
다만 VLM만으로는 충분한 추론이 어려울 수 있습니다.
특히 환각(Hallucination) 현상 문제가 있습니다.
📘참고:“Zhou et al.(2023) 연구에 따르면, 대형 VLM에서는 이미지에 존재하지 않는 객체까지 생성하는 ‘객체 환각(Object Hallucination)’ 현상이 빈번히 발생한다고 분석되었습니다.”
“Kim et al.(2024)은 이러한 환각을 탐지하고 완화하는 프레임워크를 제시했으며, 생성 텍스트와 이미지 간 의미적 재구성(Semantic Reconstruction)을 통해 환각을 약 27~33 % 줄였다고 보고했습니다.”
사이냅 OCR은 그래서 VLM을 사용할때 OCR 결과를 입력으로 활용해 LLM의 추론 근거를 강화합니다.
VLM은 이 과정에서 OCR의 후보정을 해주기도 합니다. RX(처방약) 이야기를 할 때 PenVK 5ㅇㅇ mg 인지 PenVK 500 mg 인지 중에서 처방약 단위로 후자가 더 자연스럽다는 것을 아는 것입니다.
📘참고: Bunny (2024), DocVLM (2024) 연구는 VLM 단독보다 OCR 하이브리드 입력이 실제 성능을 10~15% 향상시킨다고 보고했습니다.
VLM의 비용, 특히 운영 비용 고려하기.
기본적으로 VLM을 위해서는 GPU가 필요합니다. KVT보다 더 좋은 성능의 GPU가 요구됩니다. 당연합니다. 비전 모델과 언어 모델을 결합하면 시스템 복잡도가 높아집니다. 따라서 더 많은 컴퓨팅 리소스, 더 많은 운영비용으로 이어집니다. 특히 클라우드 환경에서는 모델 크기와 추론량에 따라 비용 차이가 크게 벌어집니다.
VLM의 처리 속도, 빠르다. 그러나 정말 빨라야 할 때는?
VLM의 처리 속도는 일반적으로 수 초 정도입니다. 폼메이커가 ms단위, KVT가 1초 이하 단위인 것에 비해서는 조금 시간이 걸립니다. 하루 수천 건의 정형 문서를 실시간 처리하는 환경에서는 밀리초 단위의 지연도 운영 효율에 영향을 줄 수 있습니다.
그럼에도 VLM을 더 많이 쓰게 될 것
다만 경량화 모델, GPU 가속, 캐싱 구조를 통해 성능 차이는 점차 줄어들고 있습니다. VLM의 비용과 속도를 점차 효율화 해나가면 VLM을 더 많이 쓰겠지만, KVT와 폼메이커의 효율성도 지금 당장 고려해야할 비즈니스적인 문제입니다. 중요한 것은 정확도·유연성·비용 간의 트레이드오프를 어디에 둘 것인가입니다.
결론: 하나의 정답은 없다
AI 업계에서는 종종 “최신 기술이 곧 최선의 해결책“이라는 인식이 있습니다. 하지만 실무는 다릅니다.
| 구분 | 폼메이커 | KVT | VLM |
| 문서 유형 | 정형 문서 (고정 서식) | 반정형 문서 (구조 일정, 양식 다양) | 비정형 문서 (구조 불규칙) |
| 예시 문서 | 주민등록증, 사업자등록증 | 명함, 세금계산서 | 계약서, 처방전, 기술문서 |
| 입력 방식 | OCR텍스트 + 좌표 | OCR텍스트 + 이미지 (멀티모달) | 이미지 + OCR텍스트 (비전+언어 결합) |
| GPU 필요 여부 | ❌ 없음 | △ 중소형 GPU | ⭕ 고성능 GPU |
| 처리 속도 | ⚡ 밀리초 단위 | 🚀 1초 이하 | ⏱ 수 초 단위 |
| 학습 데이터 필요성 | 템플릿 정의로 대체 | 약 100건 샘플 필요 | 사전학습 모델 사용 (별도 라벨링 불필요) |
| 적합한 구조 | 항목 위치 고정 | 항목 구조 일정 | 구조 불규칙·문맥 의존 |
| 운영 비용 | 💲 비교적 낮음 | 💲 중간 | 💲💲 비교적 높음 |
폼메이커는 하루 수만 건의 신분증 처리에서 VLM보다 10배 이상 빠르고 저렴합니다. 양식이 고정된 대량 문서라면 폼메이커를 추천합니다.
KVT는 여러 은행의 통장사본처럼 구조는 같지만 형태가 다른 문서를 약 100건 이상의 학습만으로 처리합니다. 템플릿으로는 불가능하고 VLM은 운영비용의 부담이 클 것입니다.
VLM은 복잡한 계약서에서 조건절 간의 인과관계를 이해합니다. 문맥 추론이 필요한 비정형 문서에서 진가를 발휘합니다.
단계적 최적화 전략
실제 프로젝트에서는 기술 전환도 자주 일어납니다.
예를 들어 견적서 처리 시스템을 구축한다고 가정해봅시다. 빠른 도입이 목적이었고, 하루 처리량도 50건 정도로 적었기 때문입니다. 하지만 6개월 후 거래처가 늘면서 하루 500건을 처리하게 되자 VLM 운영 비용이 부담이 되기 시작했습니다. 이때 수집된 500건의 데이터로 KVT를 학습하면, 정확도는 유지하면서 처리 비용을 수분의 1로 줄일 수 있었습니다. VLM은 신규 양식이 들어올 때만 사용하고, 검증된 양식은 KVT로 전환하는 하이브리드 구조를 만든 것입니다.
금융 대출 심사도 마찬가지입니다. 신분증은 폼메이커로, 통장사본은 KVT로, 재직증명서는 VLM으로 처리하되, 특정 회사의 재직증명서가 월 100건 이상 들어온다면 해당 양식만 KVT로 전환하는 식입니다.
적재적소의 기술
결국 중요한 것은 문서 특성과 비즈니스 단계에 맞는 기술을 선택하는 일입니다. 처리량, 예산, 정확도 기준을 종합적으로 고려해야 합니다. 때로는 가장 단순한 템플릿이 답이고, 때로는 최신 VLM이 필요하며, 많은 경우 그 중간이 최선입니다. 그리고 상황이 변하면 기술도 바꿀 수 있어야 합니다.
사이냅 OCR Pro는 하나의 기술로 모든 문제를 해결하려 하지 않습니다. 문제의 본질을 이해하고 적정 기술을 선택할 수 있는 유연성, 그리고 비즈니스가 성장하면서 최적화할 수 있는 전환 가능성—이것이 실무에서 진정으로 필요한 솔루션입니다. 기술은 수단이지 목적이 아닙니다. 가장 좋은 답이 아니라, 문제에 맞는 답을 찾는 것. 그것이 사이냅 OCR Pro가 추구하는 방향입니다.