Riconoscimento dei caratteri MRZ da un'immagine in .NET

Categoria del blog: OCR.NET

17.02.2022

VintaSoft Imaging .NET SDK con VintaSoft OCR .NET Plug-in consente di riconoscere il testo dalle immagini utilizzando il motore OCR Tesseract. Molti dizionari creati per il motore OCR Tesseract offrono la possibilità di eseguire il riconoscimento del testo in più di 100 lingue.

Pochi autori reperibili su Internet suggeriscono i loro dizionari gratuiti per il riconoscimento dei simboli MRZ (zone leggibili dalla macchina) utilizzando il motore OCR Tesseract.
Ne abbiamo testati alcuni e ci siamo assicurati che il dizionario "mrz.traineddata" fornisca una buona qualità di riconoscimento dei simboli MRZ.
Il dizionario "mrz.traineddata" è offerto con licenza BSD-3,che consente l'uso gratuito e la ridistribuzione di questo file.
Rendiamo disponibile il dizionario "mrz.traineddata" per il download dal nostro sito web; il dizionario può essere scaricato anche da altre risorse Internet.

Il dizionario "mrz.traineddata" è stato aggiunto all'elenco dei dizionari supportati (voce MRZ nell'enumerazione Vintasoft.Imaging.Ocr.OcrLanguage) a partire dalla versione 11.0.5.1 del VintaSoft OCR .NET Plug-in.

Per informazioni più dettagliate sui simboli MRZ, consulta Wikipedia: https://en.wikipedia.org/wiki/Machine-readable_passport

Ecco un'immagine da Wikipedia, che rappresenta un documento con zona leggibile dalla macchina (MRZ):



Ecco il codice C#, che illustra come riconoscere i simboli MRZ da un'immagine utilizzando il motore OCR Tesseract:
/// <summary>
/// Recognizes MRZ characters from image using Tesseract OCR engine.
/// </summary>
/// <param name="filename">The name of file, which stores image with MRZ characters.</param>
public static void RecognizeMRZCharactersUsingTesseractOCR(string filename)
{
    // create an image collection
    using (Vintasoft.Imaging.ImageCollection images = 
        new Vintasoft.Imaging.ImageCollection())
    {
        // add images from file to the image collection
        images.Add(filename);

        System.Console.WriteLine("Create Tesseract OCR engine...");
        // create the Tesseract OCR engine
        using (Vintasoft.Imaging.Ocr.Tesseract.TesseractOcr tesseractOcr = 
            new Vintasoft.Imaging.Ocr.Tesseract.TesseractOcr())
        {
            System.Console.WriteLine("Initialize OCR engine...");
            // init the Tesseract OCR engine for recognition of MRZ characters (machine-readable zones)
            tesseractOcr.Init(new Vintasoft.Imaging.Ocr.OcrEngineSettings(Vintasoft.Imaging.Ocr.OcrLanguage.MRZ));

            // for each image in image collection
            foreach (Vintasoft.Imaging.VintasoftImage image in images)
            {
                System.Console.WriteLine("Recognize the image...");
                
                // recognize text in image
                Vintasoft.Imaging.Ocr.Results.OcrPage ocrResult = tesseractOcr.Recognize(image);

                // output the recognized text

                System.Console.WriteLine("Page Text:");
                System.Console.WriteLine(ocrResult.GetText());
                System.Console.WriteLine();
            }

            // shutdown the Tesseract OCR engine
            tesseractOcr.Shutdown();
        }

        // free images
        images.ClearAndDisposeItems();
    }
}