실전!엑스포 가서 LLM 아키텍쳐 뜯어보기:믿을 수 있는 회사를 찾는 법

2025-06-25 | 개발 이야기, 사이냅 이야기

안녕하세요, Document AI 기업 사이냅소프트입니다 🥰

5 코엑스 AI 엑스포에서 한 대기업 팀장님이 이런 말씀을 하셨어요:

부스마다 RAG 아키텍처 그림을 보여주는데, 솔직히 다 비슷해 보여요LLM – 벡터DB – 검색 이런 구조는 다 똑같잖아요. 근데 어떤 회사는 3, 어떤 회사는 30억을 부르더라고요.”

6월에 있던 AI&빅데이터 쇼에서도 H기업의 AX 직원분들이 오셔서 회사에 적용할 수 있는 AI 기술들을 둘러보고 있는데, 다 비슷해 보인다는 말씀을 하시더라고요.

그래서 이번에는 LLM 시스템 아키텍처를 보고 전시회에서 추가 질문하는 법을 알아보겠습니다.

전시회에서 보는 구조도는 사실 여러 정보를 담고 있습니다.

 

전시회에서 흔히 보는 LLM 아키텍처의 함정: 모든 업체가 보여주는 “표준” 구조도

대부분의 AI 벤더들이 보여주는 구조도는 이런 식입니다:

전시회 유인물에 LLM 구조도가 있었다면 한번 확인해보세요

우선 LLM 모델이 자체인지, 멀티모델을 지원하는지에 대한 내용을 확인할 수 있습니다.

그 다음에 RAG, 벡터 DB, 벡터 검색이라는 단어가 있으면 RAG(검색증강생성)을 지원함을 알 수 있죠.

TIP💡: LLM의 SOTA(최고수준)모델이 계속 갱신되기 때문에, 2025년 기준, 자체모델에 대한 차별화 보다는 여러 모델을 지원한다고 하는 회사가 많습니다.

 

TIP2💡: AI의 환각현상(Hallucination)을 해결하기 위해 대부분의 구축 회사들이 고객사 내의 자료를 기반으로 증거기반 답변을 하는 RAG(검색증강생성)를 지원하는 방향으로 자사 제품/서비스/SI를 소개하고 있습니다.

비사실적 추론(NFQA) 응답에 대한 연구 개발도 최근 많이 진행되고 있지만, 고객사에서 원하는 기능 조건의 대부분은 사실기반에 의한 추론과 응답으로, RAG는 트랜스포머 아키텍쳐 LLM 기반에서 표준으로 자리잡아갈 것으로 보입니다.

 

겉보기에는 다 똑같아 보이죠? 하지만 각 단계별로 어떤 기술을 쓰는지, 어떻게 구현했는지 진짜 차이점은세부 구현에 있습니다.

똑같은벡터 검색이라고 해도:

  • A사: 단순 코사인 유사도 검색
  • B사: 하이브리드 검색 (벡터 + 키워드 + 의미 검색)
  • C사: 멀티스텝 Retrieval+ Reranking

결과는 완전히 다릅니다. 그런데 구조도에는 이게 표현이 된 경우도, 생략된 경우도 있습니다. 지난 세미나에서 발표한 사이냅소프트의 사이냅 어시스턴트 구조도 일부를 잠깐 볼까요?

  • 코사인 유사도 검색: 하고 있네요. 벡터 검색과 벡터 DB가 명시적으로 표현되어있습니다.

  • 하이브리드 검색:  Agent QA에서검색을 수행할 때 검색 엔진도 같이 활용하고 있는데요. 하늘색 박스 안의 구성에서 보면 벡터 기반 검색도 하고 있고, 서치엔진도 있음을 알 수 있습니다.

  • 멀티스텝 Retrieval+ Reranking: 구조도에서는 Agent QA, Agent DOC 로만 표현되어 있어서 기능이 암시는 되지만 물어보는 게 정확하겠죠. 실제로는 제공합니다. Agentic RAG를 구성할 때 세부내역을 보면 알 수 있는데요.
    Agentic RAG
    에서여러 에이전트들이 역할을 수행하기 위해 질문을 여러 단계로 구성하게 되는데이렇게 여러 단계 나누어 작업을 수행하는 것이 멀티스텝 retrieval이라고 얘기할  있습니다.
    다만 이 내용은 너무 복잡해져서 구조도에서 설명하는 대신 제품소개서, 세미나 자료 등에서 표현되고 있습니다. 그러므로 구조도를 보고 추가적인 질문이나 자료 요청을 부스 현장에서 하는 것도 필요합니다.

사이냅어시스턴트는 세 수준 다 제공하고 있음을 구조도를 통해서 어느정도 알 수 있지만, 추가 확인도 필요하다는 것을 알 수 있습니다.

 

LLM 아키텍처 분석: 각 단계별 실력 판별법

 

1. 데이터 전처리 단계: RAG의 알파이자 오메가, 어떤 퀄리티의 데이터일 것인가 

이렇게 물어보세요: “문서에서 텍스트를 추출할 때 어떤 방식을 쓰시나요?”

❌ 위험한 답변은 다음과 같습니다:

  • “PyPDF나 오픈소스 라이브러리 씁니다
  • “OCR은 구글/네이버 API 갖다 씁니다
  • 표나 이미지는 제외하고 텍스트만 처리합니다

✅ 좋은 답변은 이런 식으로 시작합니다:

  • 문서 레이아웃 분석해서 표/차트/이미지를 구조적으로 추출합니다
  • 읽기 순서를 고려한 텍스트 추출 엔진을 자체 개발했습니다
  • “OCR 후처리로 도메인 특화 오류 보정을 합니다
  • ONLY SYNAPSOFT: “저희는 하이브리드 문서 구조 분석 엔진을 쓰는데요, 원본문서를 바로 분석하는 엔진과 AI-OCR을 씁니다. 데모 확인해보시겠어요? 😉(신나서 설명 20)”
TIP💡: 복잡한 표가 있는 문서를 가져가서이걸 어떻게 처리하시나요?” 물어보세요. 이 부분에서 기술력 차이가 확실히 드러납니다.

 

TIP2💡: 외부인이 직접 데이터 전처리 (도큐먼트 파서)를 비교한 영상 등을 찾아보세요.

 

 

작은 홍보✨: 사이냅 도큐애널라이저 데모 페이지 에서 직접 페이지를 올려 테스트해보세요

사이냅 도큐애널라이저는 다양한 문서에서 표, 이미지 같은 시각적 정보와 복잡한 문서 구조 정보를 분석하여 Markdown과 XML 형식의 정형 데이터로 변환해주는 디지털 자산화 및 RAG를 활용한 LLM 구축 필수 솔루션입니다

 

 

2. 청킹(Chunking) 전략: 검색 품질의 핵심

이렇게 물어보세요: “문서를 어떤 단위로 나누어서 벡터화하시나요?”

❌ 단순한 접근:

  • 고정된 토큰 수로 자릅니다 (512토큰, 1024토큰 등)”
  • 문단 단위로 나눕니다
  • 페이지 단위로 처리합니다

✅ 고급 접근:

  • 의미 단위 청킹: 제목본문 관계를 유지하면서 분할
  • 계층적 청킹: 문서 섹션 문단 문장 단위 임베딩
  • 오버래핑 청킹: 문맥 유실 방지를 위한 중복 구간 설정

사이냅소프트는 2025 6 20일 자체 세미나에서 문서 파싱과 청킹,

해당 내용에 대한 부분을 개발하신 팀장님들이 직접 다뤘습니다. 한수원 등의 프로젝트를 하면서 쌓인 노하우도 있죠.

[2025 사이냅 AI 기술 세미나] 행사 스케치 보기 

TIP💡: “표가 중간에 끊어지면 어떻게 처리하시나요?” 물어보세요. 이 질문에 명확한 답변을 하지 못하는 경우가 많습니다.

사이냅소프트는요? 답변하기 제일 좋아하는 질문 중 하나에요!

 

 

3. 벡터 검색 & 하이브리드 검색: 기술력의 차이

이렇게 물어보세요: 정확한 용어나 고유명사 검색은 어떻게 처리하시나요?”

❌ 벡터 검색만 사용:

질문 임베딩 벡터 유사도 검색 결과

문제점: 정확한 용어 매칭 실패, 짧은 내용 혹은 고유 명사 중심의 검색에 약함

✅ 하이브리드 검색:

질문 벡터 검색 + 키워드 검색 + 의미 검색 리랭킹 결과

장점: 의미 유사성 + 정확한 매칭 둘 다 보장

TIP💡: 질문에 대한 답변이 잘 되는 것 같다면, 문서 안에 있을법한 고유명사(LG 문서라면, LG 제품명 등)도 질문해보세요. 키워드 기반 검색을 한다면 해당 내용을 잘 찾아줍니다.

 

 

4. 결과 검증 및 신뢰도: 기업용 AI의 필수 요소

 이렇게 물어보세요: “AI가 잘못된 답변을 할 가능성은 어떻게 처리하시나요?”

❌ 신뢰도 관리 부족:

  • “LLM이 알아서 잘 합니다
  • 사용자가 판단하면 됩니다
  • 대부분 정확합니다

✅ 기업급 신뢰도 관리:

  • Source Citation: 답변 근거 문서 명시
  • Confidence Score: 답변 신뢰도 점수 제공
  • Hallucination Detection: 환각 답변 감지 및 경고
  • Human-in-the-loop: 중요한 결정은 인간 검토 필요

 

TIP💡: “문서에 없는 내용을 물어보면 어떻게 되나요?” 테스트해보세요. 좋은 시스템은문서에서 관련 정보를 찾을 수 없습니다라고 답합니다.

 

🔻 하단의 사이냅 어시스턴트 데모를 보면 답변 근거 문서정확한 페이지를 명시하고 관련도를 제공하고 청킹 내용도 제공하고 있습니다.

 

결론

화려한 마케팅이나 저렴한 가격에 현혹되지 마세요.

LLM 시스템의 각 구성 요소를 제대로 이해하고 구현한 업체를 선택하는 것이 중요합니다.

기억해주세요:

  • 아키텍처 다이어그램의 세부 구현이 핵심입니다
  • 실제 데이터로 테스트해보는 것이 가장 확실한 검증입니다
  • 기술적 한계를 솔직하게 인정하는 업체가 더 신뢰할 만합니다

     

     

    더 읽어보기

    오늘의 글이 재밌으셨다면 사이냅소프트에서 다음의 페이지들을 읽어보시면 좋을 것 같습니다. 오늘 LLM 아키텍쳐 설명에 활용된 사이냅 어시스턴트 가 궁금하실 수도 있고, 기업 내 여러 문서를 LLM이 활용할 수 있도록 RAG 구축을 위해서 디지털 문서를 변환해야한다면 사이냅 도큐애널라이저 가 필요하실 수도 있습니다.

     

     

    사이냅 문서뷰어

    어디서 어떻게 사용되고 있을까요?

    사이냅 문서뷰어의 적용사례를 만나보세요

    [개인정보 수집, 이용에 대한 동의 절차]

    사이냅 문서뷰어 적용사례를 만나보세요

    차원이 다른 HTML5 웹에디터

    사이냅 에디터

    사이냅 에디터가 어디에 활용될 수 있을까요?
    다양한 적용사례를 만나보세요

    [개인정보 수집, 이용에 대한 동의 절차]

    한 차원 높은 HTML5 웹에디터를 만나보세요