VintaSoft OCR .NET Plug-in - Entwicklungsgeschichte

Produktversionsinformationen

Auf dieser Seite finden Sie Informationen zur allgemeinen Entwicklungsgeschichte des VintaSoft OCR .NET Plug-in. Informationen zu Änderungen an der SDK-API finden Sie in der Dokumentation.

  • .NET-Entwicklung:
    • Unterstützung für .NET 10 unter Windows und Linux hinzugefügt.
    • Die Tesseract-OCR-Engine wurde auf Version 5.5.1 aktualisiert.
  • .NET-Entwicklung:
    • Unterstützung für .NET 9 unter Windows und Linux hinzugefügt.
    • Die Tesseract-OCR-Engine wurde auf Version 5.5.0 aktualisiert.
    • Die Vintasoft.Imaging.Ocr.ML-Assembly verwendet nun Microsoft.ML 4.0.0.
    • Demoanwendungen:
      • Die Webdemo-Anwendung "OCR Demo" ermöglicht nun die Texterkennung in allen geladenen Bildern gleichzeitig, das Speichern des OCR-Ergebnisses in einem durchsuchbaren PDF-Dokument und die Anzeige dieses Dokuments mit der Möglichkeit, Text auszuwählen und zu durchsuchen.
  • .NET-Entwicklung:
    • Die Erkennung handgeschriebener Ziffernfolgen mithilfe eines neuronalen Netzes auf Basis von Microsoft.ML wurde hinzugefügt.
    • Kleinere Fehler wurden behoben.
  • .NET-Entwicklung:
    • Die Tesseract-OCR-Engine wurde auf Version 5.3.4 aktualisiert.
  • Unterstützung für .NET 8.0 unter Windows, Linux und macOS hinzugefügt.
  • Die Tesseract-OCR-Engine wurde auf Version 5.3.3 aktualisiert.
  • Alle vom Befehl zur Bildsegmentierung zurückgegebenen Textblöcke sind nun als "RecognizeSingleColumn"-Blöcke gekennzeichnet. Zuvor waren diese Blöcke als "RecognizeSingleBlock"-Blöcke gekennzeichnet. Diese Änderung verbesserte die Erkennungsqualität komplexer Texte, ohne die Gesamtleistung der Texterkennung zu beeinträchtigen.
  • .NET-Entwicklung:
    • Die Tesseract-OCR-Engine wurde auf Version 5 aktualisiert.3.
  • .NET-Entwicklung:
    • Unterstützung für .NET 7 unter Windows und Linux hinzugefügt.
    • Texterkennung unter Linux hinzugefügt.
    • Algorithmus zur Bestimmung der Bereiche erkannter Zeichen verbessert.
    • Demoanwendungen:
      • Erstellung durchsuchbarer PDF-Dokumente im TextOverImage-Modus in OcrDemo möglich.
    • Mehrere kleinere Fehler wurden behoben.
  • .NET-Entwicklung:
    • Unterstützte Plattformen:
      • Unterstützung für .NET 6 unter Windows hinzugefügt.
    • Unterstützte Entwicklungsumgebungen:
      • Kompatibilität mit Visual Studio 2022 hinzugefügt.
    • Unterstützte Betriebssysteme:
      • Kompatibilität mit Windows 11 hinzugefügt.
      • Kompatibilität mit Windows Server 2003 nicht mehr unterstützt.
    • Die Tesseract-OCR-Engine wurde auf Version 5.0 aktualisiert. Unsere Tests haben gezeigt, dass Tesseract OCR 5 und Tesseract OCR 4 annähernd die gleichen Ergebnisse bei der Texterkennung liefern, Tesseract OCR 5 jedoch bis zu doppelt so schnell ist wie Tesseract OCR 4.
    • Die Möglichkeit, ein OcrPage-Objekt in ein TextRegion-Objekt zu konvertieren, wurde hinzugefügt (Methoden OcrDocument.Create und OcrPage.Create).
    • Demoanwendungen:
      • Der Demo-Anwendung "OCR Demo" wurden neue Funktionen hinzugefügt:
        • Die Möglichkeit, OCR-Ergebnisse aus dem Text eines PDF-Dokuments herunterzuladen, wurde hinzugefügt.
    • Mehrere kleinere Fehler wurden behoben.
  • Webentwicklung:
    • Demoanwendungen:
      • Der Code der Demoanwendung "ASP.NET OCR Demo" ("ASP.NET Core Angular OCR Demo", "ASP.NET MVC OCR Demo", "ASP.NET WebForms OCR Demo") wurde verbessert und ermöglicht Ihnen nun Folgendes:
        • Dokumentvorschau vor der Texterkennung
        • Verarbeitung von Dokumentseiten vor der Texterkennung
        • Erkennung von Text im gesamten Dokument, auf einer einzelnen Seite oder in einem Bereich einer Seite.
    • Mehrere kleinere Fehler im OCR-Webdienst wurden behoben.
  • .NET-Entwicklung:
    • Unterstützte Plattformen:
      • Unterstützung für .NET 5 für Windows hinzugefügt.
  • .NET-Entwicklung:
    • Unterstützte Plattformen:
      • Unterstützung (ohne UI-Steuerelemente) für .NET Core 3 für Windows hinzugefügt.
        Die folgenden .NET Core-Assemblies wurden erstellt:
        • Vintasoft.Imaging.Ocr.dll
        • Vintasoft.Imaging.Ocr.Tesseract.dll
      • Die Unterstützung für .NET Framework 2.0 wurde eingestellt; das SDK unterstützt nun .NET Framework 4+ und 3.5.
    • Die verwendete Tesseract-OCR-Engine wurde auf Version 4.1.0 aktualisiert.
  • Die Tesseract OCR-Engine wurde auf Version 4.0 aktualisiert:
    • Die Leistung und Qualität der Texterkennung wurden verbessert.
    • Unterstützung für die Erkennung neuer Sprachen hinzugefügt.
  • Die Möglichkeit, Text in mehreren Sprachen gleichzeitig mit der Tesseract OCR-Funktionalität zu erkennen, wurde hinzugefügt. Zuvor war die gleichzeitige Erkennung von Text in mehreren Sprachen mit der SDK-Funktionalität möglich.
  • Die Demo-Anwendung "OCR Demo" bietet nun die Möglichkeit, mehrere Sprachen für die Texterkennung auszuwählen.
  • Die Tesseract-OCR-Engine wurde auf Version 3.04 aktualisiert:
    • Verbesserte Texterkennungsqualität.
    • Die Liste der unterstützten Erkennungssprachen wurde erweitert.
  • Die Tesseract-OCR-Engine kann nun in einer Multithread-Umgebung verwendet werden.
  • Verbesserte Texterkennungsqualität in Farbbildern.
  • Reduzierter maximaler Speicherverbrauch bei der Texterkennung in Farbbildern.
  • Die Möglichkeit, den Baum der Erkennungsergebnisse im HOCR-Format zu importieren/exportieren, wurde hinzugefügt.
  • Viele kleinere Fehlerbehebungen und Verbesserungen.
  • Die Möglichkeit, den orthogonalen Drehwinkel eines Textbereichs vor der Texterkennung festzulegen, wurde hinzugefügt. Bisher wurde der gesamte Text als ungedreht erkannt.
  • Die Anwendung "OCR Demo" kann jetzt durchsuchbare PDF-Dokumente mit MRC-Komprimierung erstellen.
  • Diverse kleinere Verbesserungen.
  • Der Code der Anwendung "OCR Demo" wurde verbessert.
  • Die Assemblies wurden umbenannt und die Namespace-Struktur geändert. Weitere Details finden Sie in der Dokumentation.
  • Die Tesseract-OCR-Engine wurde auf Version 3.02 aktualisiert.
    • Die OCR-Qualität wurde verbessert.
    • Neue unterstützte Sprachen: Afrikaans, Albanisch, Aserbaidschanisch, Belarussisch, Bengalisch, Estnisch, Baskisch, Französisch, Galicisch, Kroatisch, Isländisch, Malayalam, Mazedonisch, Maltesisch, Malaiisch, Suaheli, Tamil, Telugu.
  • Kleinere Fehler wurden behoben.
  • Eine grundlegende OCR-.NET-Schnittstelle wurde erstellt (Vintasoft.Ocr.dll):
    • Texterkennung auf Bildern oder Bildersammlungen möglich.
    • Fähigkeit zur Texterkennung in beliebigen Bildbereichen.
    • Fähigkeit zur Anzeige des Erkennungsfortschritts.
    • Fähigkeit zur Segmentierung eines Bildes vor der Erkennung und zur Festlegung von Erkennungsparametern für jeden der gefundenen Bereiche.
    • Fähigkeit zur Anzeige der Erkennungsergebnisse als Hierarchie: Dokument, Seite, Bereich, Absatz, Zeile, Symbol.
    • Fähigkeit zur Navigation durch die Erkennungsergebnisse.
    • Fähigkeit zur Bearbeitung der Erkennungsergebnisse.
    • Fähigkeit zum Speichern der Erkennungsergebnisse als Textdokument (TXT).
  • Tesseract-OCR-Schnittstelle (Vintasoft.Ocr.Tesseract.dll) erstellt:
    • Bereitstellung des Zugriffs auf die Funktionalität der Tesseract-OCR-Engine.
    • Fähigkeit zur Texterkennung in Bildern.
    • Fähigkeit zur Texterkennung in beliebigen Bildbereichen.
    • Unterstützte Sprachen: Englisch, Arabisch, Bulgarisch, Katalanisch, Tschechisch, Cherokee, Vereinfachtes Chinesisch, Traditionelles Chinesisch, Dänisch, Niederländisch, Finnisch, Französisch, Deutsch, Griechisch, Hebräisch, Hindi, Ungarisch, Indonesisch, Italienisch, Japanisch, Koreanisch, Lettisch, Litauisch, Norwegisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch, Slowakisch, Slowenisch, Spanisch, Schwedisch, Tagalog, Thailändisch, Türkisch, Ukrainisch, Vietnamesisch.
    • Fähigkeit zur Anzeige des Erkennungsfortschritts.
    • Fähigkeit zum Abrufen/Festlegen von Tesseract-OCR-Variablenwerten.
    • Fähigkeit zur Verwendung benutzerdefinierter Wörterbücher.
  • Eine Schnittstelle zur Generierung von PDF-Dateien mit Textsuchfunktion wurde erstellt (Vintasoft.Pdf.Ocr.dll):
    • Möglichkeit, OCR-Erkennungsergebnisse als Text in einem PDF-Dokument zu speichern.
    • Möglichkeit, OCR-Erkennungsergebnisse als versteckten Text unter dem Bild in einem PDF-Dokument zu speichern.