PLAY 버튼으로 가능한 OCR

광학 문자 인식은 이미지 프로세싱 및 기계 지능 분야에서 여전히 가장 어려운 분야 중 하나입니다. 다양한 문자와 다양한 표면에 문자를 적용하는 방법만 봐도 어떤 어려움이 있는지 짐작할 수 있습니다. 이러한 복잡한 시각적 데이터를 명확하고 구조화된 텍스트로 변환하는 데에는 단단한 재료에 긁힘, 엠보싱 또는 레이저 조각으로 인한 먼지, 반사, 모양 오류 등의 어려움이 있습니다. 또한 이미지 데이터의 픽셀 해상도가 일반적으로 낮을 뿐만 아니라 문자가 겹치거나 불완전하면 문자를 서로 구별하기가 거의 불가능해질 수 있습니다. 예를 들어 8이 3으로 인식될 수 있습니다. 이미지 프로세싱 시장은 텍스트 인식의 정확성과 신뢰성을 향상시키기 위해 끊임없이 진화하고 있습니다. 그렇다면 OCR 시스템을 선택할 때 결정적인 요소는 무엇일까요?

재현 가능한 정확성을 갖춘 포괄적인 데이터베이스

설득력을 얻으려면 OCR은 처음부터 간단하게 작동하고 높은 판독 성능을 제공해야 합니다. 이를 위해서는 다양한 학습 이미지로 사전 학습된 잘 발달된 네트워크 아키텍처가 필요합니다. 여기서 실제 어플리케이션은 합성 데이터의 사용만큼이나 필수적입니다. 이를 통해 많은 특수 사례와 변형을 추가로 학습할 수 있을 뿐만 아니라, 관련 기능을 훨씬 더 강력하게 인식할 수 있습니다. 특히 산업 자동화 분야에서는 그 어떤 것도 우연에 맡겨서는 안 됩니다.

바로 이 부분에서 개별 이미지 분석을 위한 AI 비전 솔루션인 DENKnet이 필요합니다. 사용자는 선도적인 AI 기술 외에도, 지속적으로 진화하는 고성능 OCR 모델에 접근할 수 있습니다. 모든 개발 단계는 엄격하게 버전이 관리되므로 애플리케이션 개발자는 정의된 버전으로 돌아갈 수 있고, 다양하고 강력한 인식을 보장하기 위해 개선된 새 버전으로 업데이트할 수 있는 옵션도 있습니다. 품질 보증을 위해, 생산 시스템을 새 소프트웨어로 업그레이드하기 전에 품질 센터에서 샘플 데이터 세트로 학습된 네트워크의 성능과 재현성을 테스트하고 검증할 수 있습니다.

DENKnet OCR 적용 사례

DENKnet OCR은 미세 조정 없이도 많은 어플리케이션에서 매우 안정적으로 판독합니다. 예를 들어, 대비가 거의 없는 타이어 번호, 크라운 캡의 변형이 심하고 작은 숫자, 배경이 매우 불균일하고 과도하게 인쇄된 분리 디스크 정보 등이 있습니다.

유리병의 크라운 코르크 마개에 있는 생산 번호는 성형 도구에 의해 불균일하게 왜곡되어 기계로 판독하기 어렵습니다.
유리병의 크라운 코르크 마개에 있는 생산 번호는 성형 도구에 의해 불균일하게 왜곡되어 기계로 판독하기 어렵습니다.
자동차 타이어 DOT 번호 OCR
타이어의 DOT 번호는 대비가 거의 없지만 91%의 신뢰도로 판독됩니다.
분리 디스크 문자열 OCR
인쇄 상태가 좋지 않아 분리 디스크의 텍스트는 사람조차도 읽기 어렵습니다.

트랜스포머 & 거대 언어 모델(Large Language Model, LLM)

좋은 OCR 모델의 또 다른 긍정적인 특징은 개별 문자뿐만 아니라 일련 번호나 단어와 같은 문자 시퀀스의 문자 간의 관계도 인식할 수 있고 문자를 인식할 때 이러한 지식을 고려할 수 있다는 점입니다. OCR이 후속 문자를 잘 예측하고 그에 따라 판독 결과에 가중치를 부여할수록 특수 어플리케이션을 더 강력하고 정밀하게 해결할 수 있습니다. ChatGPT에 사용되는 것과 같은 트랜스포머 네트워크 또는 거대 언어 모델(LLM)의 생성 및 조합 특성은 이러한 예측과 판독 품질에 더욱 긍정적인 영향을 미칠 수 있습니다. 그러나 이러한 아키텍처는 실행 속도가 다소 느리고 많은 시스템 리소스가 필요하다는 점을 고려해야 합니다. 따라서 요구 사항을 최대한 지원하기 위해 이러한 최첨단 기술을 적절한 범위에서 사용하는 것이 더욱 중요합니다. 특히 자동화 부문에서 이미지 프로세싱은 초 단위가 아니라 밀리초 단위로 이루어져야 합니다. 따라서 훈련된 신경망은 '일반' 하드웨어에서 실행 가능하도록 빠르고 가벼운 상태를 유지해야 합니다. 높은 인식 정확도와 사용 속도가 최대의 시스템 성능으로만 가능하다면 어플리케이션의 경제성은 거의 없을 것입니다.

"오늘날 트렌드는 AI를 더 작게 만들어 더 빠르고 저렴하게 실행하는 것입니다."

— Daniel Routschka, 인공 지능 세일즈 매니저, IDS Imaging Development Systems GmbH —

간단한 수정 및 재훈련

OCR이 오류, 알 수 없는 문자, 글꼴 또는 언어 등의 이유로 문자를 판독하지 못하는 경우, 사용자는 약간의 노력만 기울이면 판독 결과를 수정하거나 새로운 문자를 훈련할 수 있습니다. 하지만 이러한 미세 조정은 단순히 네트워크를 '지속적으로 훈련'하는 것만으로 되는 것은 아닙니다. 예를 들어, 이미 2백만 개의 이미지로 OCR 모델을 학습시킨 사용자가 이제 자신이 직접 찍은 몇 개의 이미지로 새로운 이미지를 학습시키고자 한다고 가정해 보겠습니다. 모델에서 이러한 정보에 어떤 가중치를 부여해야 다른 것을 바꾸지 않으면서도 차이를 만들 수 있을까요? 이러한 조정으로 기존의 안정적인 인식이 부정적인 영향을 받지 않으면서 AI를 확장하려면 공급자의 전문성이 필요합니다. 예: 어떤 이유에서인지 이 OCR은 숫자와 관련한 문제가 있으며, 사용자는 학습 과정에서 숫자에만 주석을 달 뿐 문자에 주석을 달지 않습니다. 목표는 지능형 '지식 백업'을 통해 이 네트워크가 문자를 읽을 필요가 없다고 판단하여 특정 시점에 숫자만 성공적으로 읽을 수 있는 것을 방지하는 것입니다.

따라서 DENK Vision AI 허브는 네트워크를 적절한 수준으로 재훈련하고 가중치를 부여하기 위해 DENKnet OCR 미세 조정 시 모든 새로운 이미지에 적합한 합성 데이터를 생성합니다. 이렇게 하면 OCR이 훈련을 지속해도 이전 능력을 잃지 않습니다. 또한, 클라우드 기반 백그라운드 훈련 덕분에 Vision AI 허브 사용자는 '재훈련'을 쉽고 빠르게, 효율적으로 수행할 수 있습니다. 가장 좋은 시나리오는 OCR의 기본 기술이 매우 우수하여 더 이상 재훈련이 필요하지 않은 경우입니다.

라벨 보정 및 OCR 모델 재훈련 프로세스
DENK Vision AI 허브에서 DENKnet OCR을 미세 조정하면 사용자 개입이 거의 필요하지 않고, 판독 품질이 매우 빠르게 향상됩니다.

클라우드 훈련의 이점

DENK Vision AI 허브의 모든 기능과 서비스는 전적으로 클라우드 기술을 기반으로 합니다. 즉, 미세 조정은 로컬 하드웨어 시스템의 소프트웨어 버전이 아닌, 지속적으로 업데이트되고 제어되는 소프트웨어 기반의 자체 이미지 데이터에서 이루어집니다. 기술 백엔드의 지속적인 추가 개발 덕분에 사용할 수 있는 OCR 모델은 어려움에 대한 저항력이 점점 더 커지고 있습니다. 그 결과, 점점 더 많은 사용자가 큰 조정이나 추가 훈련 없이도 애플리케이션을 사용할 수 있게 되었습니다. "Press Play"는 백그라운드에서 서로 다른 아키텍처를 가진 수많은 적합한 네트워크 모델을 학습하여 궁극적으로 사용자에게 최상의 결과를 제공하는 DENKcloud의 작업과 같습니다.

클라우드 솔루션은 지원 사례에서 사용자에게 부가가치이기도 합니다. 알 수 없는 문자와 같이 사용 사례 데이터에 문제가 있는 경우, 백엔드에서 기술 지원을 통해 신속하게 해결책을 제시하고, 인식 성능에 긍정적인 영향을 줄 수 있습니다. 데이터를 내보내거나 가져올 필요가 없고, 빌드 시스템이나 소프트웨어 버전에 따라 결과가 달라질 위험 없이 네트워크 아키텍처를 변경하거나 합성 추가 데이터 생성을 최적화할 수 있습니다. 이 작업은 시간 손실 없이 고객 사용 사례에서 바로 수행할 수 있습니다. 민감한 데이터를 전송하지 않으면 무단 액세스의 위험도 최소화할 수 있습니다.

단일 소스에서의 간편하고 경제적인 OCR

AI 비전 환경에는 많은 OCR 솔루션 제공업체가 있으며, 최고의 네트워크를 위한 경쟁이 벌어지고 있습니다. 숙련된 사용자의 경우, 초기 경험을 빠르게 쌓고 성과를 달성하는 데 사용할 수 있는 다양한 오픈 소스 도구와 공용 네트워크 아키텍처도 있습니다. 그러나 AI 기술이나 최첨단 네트워크, 대규모 비전 모델을 경제적이고 효율적으로 사용하고 결합하는 방법에 대한 심층적인 기술 지식이 없다면 많은 OCR 작업은 여전히 해결되지 않은 채로 남아 있을 것입니다.

산업용 카메라 제조업체인 IDS는 AI 비전 솔루션인 DENKnet과 함께 빠르고 안정적이며 경제적인 OCR 작업을 위한 모든 이미지 프로세싱 구성 요소를 단일 소스에서 공급할 수 있습니다. 이는 사용자에게도 이익이 됩니다. 경험해 보세요. PLAY 버튼을 누르기만 하면 됩니다!

DENKnet OCR - 차이를 만드는 기술

  • 합성 데이터 - 새 이미지가 업로드될 때마다 이미지 변형이 자동으로 생성되어 체계적인 방식으로 모델 기능을 확장하고 강화합니다.
  • 사용 편의성 + 시간 절약 - 'Autoprediction' 및 '1-Click Annotation'과 같은 직관적인 도구는 사전 지식이 필요하지 않으며 테스트, 준비 및 유지 관리 시간을 줄여줍니다.
  • 최첨단 기술 - 트랜스포머, 거대 언어 모델(Large Language Model, LLM)같은 최신 네트워크 아키텍처에 대한 지식이 DENKnet OCR 개발에 지속적으로 통합되고 있습니다.
  • 스마트 아키텍처 - 완전 자동화된 교육이 작업에 가장 적합한 아키텍처를 독립적으로 선택합니다.
  • 클라우드 트레이닝 - 최첨단 기술과 지속적인 네트워크 기반 개선으로 항상 최신 상태를 유지합니다.
  • 빠르고 경제적인 로컬 실행 - 폐쇄형 어플리케이션 환경에서 로컬 실행을 위한 최적의 정확하고 간결하며 빠른 모델을 목표로 합니다.