Mistral AI, belge zekası alanında yeni bir teknoloji olan OCR 4'ü piyasaya sürdü. Bu model, basit metin çıkarmanın ötesine giderek, belgelerin yapılandırılmış temsillerini sunuyor. Sınır kutuları, blok türü sınıflandırması ve kelime bazında güven skorları içeren bu sistem, kurumsal belge işleme iş akışlarını temelden değiştiriyor.

Yapılandırılmış Belge Analizi Paradigması

OCR 4'ün temel yeniliği, metin çıkarma yaklaşımında ortaya çıkıyor. Geleneksel OCR teknolojilerinin aksine, bu model çıkardığı her içeriği konumlandırma bilgisiyle etiketliyor. Her blok, konumunu gösteren sınır kutuları, türünü belirten etiketler (başlık, tablo, denklem, imza vb.) ve güven puanları ile birlikte sunuluyor. Bu bilgiler, belgelerdeki bilgilerin kaynağını takip etmeyi gerekli kılan denetleme iş akışları, geri alma destekli üretim sistemleri ve uyum kontrolü için kritik öneme sahip.

Blok sınıflandırması özellikleri, kurumsal sistemlerin belgeleri anlam temelli arama için katmanlandırmalarına, tabloları yapılandırılmış veri işleme hatlarına, imzaları ise redaksiyon iş akışlarına yönlendirmelerine olanak tanıyor. Bu yetenekler ayrı bir düzen analiz aşaması gerektirmeyen, tek bir sistemde birleştirilmiş çözüm sunuyor.

Ölçeklenebilir İnsan-Makine İş Birliği

Güven skorları, kuruluşların düşük puanlı bölgeleri insan gözlemcilerine yönlendirmesini ve yüksek puanlı çıkarımları otomatik olarak onaylamasını sağlıyor. Bu sayede her sayfanın manuel kontrolü olmadan ölçeklenebilir doğrulama sistemi oluşturuluyor.

Model, 170 dili 10 dil grubu içinde destekliyor ve PDF, DOC, PPT ile OpenDocument formatlarını işleyebiliyor. Özellikle düzenlenmiş sektörlerdeki işletmeler için kendi altyapısında çalışan konteyner şeklinde dağıtılabilecek bir çözüm sunuyor. Fiyatlandırması ise 1000 sayfa başına 4 dolardan başlıyor; toplu işleme API'si kullanılırsa 2 dolara inmiyor.

Yaygın Entegrasyon Desteği

OCR 4, Mistral API, Mistral Studio içindeki Document AI, Amazon SageMaker ve Microsoft Foundry üzerinden hemen kullanıma sunuldu. Snowflake Parse Document desteği ise yakında eklenecek.