VintaSoft OCR .NET Plug-in - Historique du développement

Informations sur les versions du produit

Sur cette page, vous pouvez obtenir des informations sur l'historique général du développement du VintaSoft OCR .NET Plug-in. Des informations sur les modifications apportées à l'API SDK sont disponibles dans la documentation.

  • Développement .NET:
    • Ajout de la prise en charge de .NET 9 sur Windows et Linux.
    • Le moteur Tesseract OCR utilisé a été mis à jour vers la version 5.5.0.
    • L'assembly Vintasoft.Imaging.Ocr.ML utilise désormais Microsoft.ML 4.0.0.
    • Applications de démonstration:
      • L'application de démonstration Web "OCR Demo" vous permet désormais de reconnaître du texte dans toutes les images chargées à la fois, d'enregistrer le résultat de la reconnaissance de texte dans un document PDF consultable et d'afficher le document PDF consultable créé avec la possibilité de sélectionner et de rechercher du texte.
  • Développement .NET:
    • Ajout de la possibilité de reconnaître une chaîne de nombres manuscrits à l'aide d'un réseau neuronal basé sur Microsoft.ML.
    • Bogues mineurs corrigés.
  • Développement .NET:
    • Le moteur Tesseract OCR utilisé a été mis à jour vers la version 5.3.4.
  • Ajout de la prise en charge de .NET 8.0 sur Windows, Linux et macOS.
  • Le moteur Tesseract OCR utilisé a été mis à jour vers la version 5.3.3.
  • Désormais, tous les blocs de texte reçus de la commande de segmentation d'image sont marqués comme des blocs de type RecognizeSingleColumn. Auparavant, les blocs étaient marqués comme blocs RecognizeSingleBlock. Cette modification a amélioré la qualité de reconnaissance des textes complexes sans réduire les performances globales de reconnaissance de texte.
  • Développement .NET:
    • Le moteur Tesseract OCR utilisé a été mis à jour vers la version 5.3.
  • Développement .NET:
    • Ajout de la prise en charge de .NET 7 sur Windows et Linux.
    • Ajout de la possibilité de reconnaître du texte sur Linux.
    • Amélioration de l'algorithme de détermination des régions de caractères reconnus.
    • Applications de démonstration:
      • La possibilité de créer un document PDF consultable en mode TextOverImage a été ajoutée à OcrDemo.
    • Correction de plusieurs bugs mineurs.
  • Développement .NET:
    • Plateformes prises en charge:
      • Ajout de la prise en charge de .NET 6 pour Windows.
    • Environnements de développement pris en charge:
      • Ajout de la prise en charge de la compatibilité avec Visual Studio 2022.
    • Systèmes d'exploitation pris en charge:
      • Ajout de la prise en charge de la compatibilité avec Windows 11.
      • Abandon de la prise en charge de la compatibilité avec Windows Server 2003.
    • Le moteur Tesseract OCR utilisé a été mis à jour vers la version 5.0. Nos tests ont montré que Tesseract OCR 5 et Tesseract OCR 4 fournissent approximativement les mêmes résultats de reconnaissance de texte, mais Tesseract OCR 5 est jusqu'à 2 fois plus rapide que Tesseract OCR 4.
    • Ajout de la possibilité de convertir un objet OcrPage en objet TextRegion (méthodes OcrDocument.Create et OcrPage.Create).
    • Applications de démonstration:
      • Une nouvelle fonctionnalité a été ajoutée à l'application de démonstration "OCR Demo":
        • La possibilité de télécharger les résultats OCR à partir du texte d'un document PDF a été ajoutée.
    • Correction de plusieurs bugs mineurs.
  • Développement Web:
    • Applications de démonstration:
      • Le code de l'application de démonstration "ASP.NET OCR Demo" ("ASP.NET Core Angular OCR Demo", "ASP.NET MVC OCR Demo", "ASP.NET WebForms OCR Demo") a été amélioré et l'application de démonstration vous permet désormais de:
        • visualiser le document avant de reconnaître le texte
        • traiter les pages du document avant de reconnaître le texte
        • reconnaître le texte dans l'ensemble du document,une page ou une région distincte d'une page.
    • Plusieurs bugs mineurs dans le service Web OCR ont été corrigés.
  • Développement .NET:
    • Plateformes prises en charge:
      • Ajout de la prise en charge de .NET 5 pour Windows.
  • Développement .NET:
    • Plateformes prises en charge:
      • Prise en charge ajoutée (sans contrôles d'interface utilisateur) pour .NET Core 3 pour Windows.
        Les assemblys .NET Core suivants ont été créés:
        • Vintasoft.Imaging.Ocr.dll
        • Vintasoft.Imaging.Ocr.Tesseract.dll
      • La prise en charge de .NET Framework 2.0 a été abandonnée, le SDK prend désormais en charge .NET Framework 4+ et 3.5.
    • Le moteur Tesseract OCR utilisé a été mis à jour vers la version 4.1.0.
  • Le moteur Tesseract OCR utilisé a été mis à jour vers la version 4.0:
    • Performances et qualité de la reconnaissance de texte améliorées.
    • Ajout de la prise en charge de la reconnaissance de nouvelles langues.
  • Ajout de la possibilité de reconnaître du texte dans plusieurs langues à la fois à l'aide de la fonctionnalité OCR de Tesseract. Auparavant, il était possible de reconnaître du texte dans plusieurs langues à la fois grâce à la fonctionnalité SDK.
  • L'application de démonstration "OCR Demo" vous permet désormais de sélectionner plusieurs langues pour la reconnaissance de texte.
  • Le moteur Tesseract OCR utilisé a été mis à jour vers la version 3.04:
    • la qualité de la reconnaissance de texte a été améliorée
    • la liste des langues de reconnaissance prises en charge a été élargie.
  • Ajout de la possibilité d'utiliser le moteur Tesseract OCR dans un environnement multithread.
  • La qualité de la reconnaissance de texte dans les images couleur a été améliorée.
  • Utilisation maximale de la mémoire réduite lors de la reconnaissance de texte dans des images couleur.
  • Ajout de la possibilité d'importer/exporter l'arbre des résultats de reconnaissance au format HOCR.
  • Nombreuses corrections et améliorations mineures.
  • Ajout de la possibilité de spécifier l'angle de rotation orthogonal d'une zone de texte avant la reconnaissance de texte. Auparavant, tout le texte était reconnu comme non pivoté.
  • L'application de démonstration "OCR Demo" peut désormais créer des documents PDF consultables avec compression MRC.
  • Plusieurs améliorations mineures.
  • Le code de l'application de démonstration "OCR Demo" a été amélioré.
  • Les assemblys ont été renommés et des modifications ont été apportées à la structure de l'espace de noms. Des informations plus détaillées sont disponibles dans la documentation.
  • Le moteur Tesseract OCR utilisé a été mis à jour vers la version 3.02.
    • La qualité de l'OCR a été améliorée.
    • Nouvelles langues prises en charge: afrikaans, albanais, azerbaïdjanais, biélorusse, bengali, estonien, basque, franco, galicien, croate, islandais, malayalam, macédonien, maltais, malais, swahili, tamoul, télougou.
  • Bogues mineurs corrigés.
  • Une interface OCR .NET de base (Vintasoft.Ocr.dll) a été créée:
    • Capacité à reconnaître du texte sur une image ou une collection d'images.
    • Capacité à reconnaître du texte sur n'importe quelle zone d'une image.
    • Capacité à recevoir la progression de la reconnaissance.
    • La possibilité de segmenter une image avant la reconnaissance et de définir des paramètres de reconnaissance pour chacune des régions trouvées.
    • Possibilité d'obtenir le résultat de la reconnaissance sous forme de hiérarchie: Document, Page, Région, Paragraphe, Ligne, Symbole.
    • Possibilité de naviguer dans le résultat de la reconnaissance.
    • Possibilité de modifier le résultat de la reconnaissance.
    • Possibilité d'enregistrer les résultats de reconnaissance sous forme de document texte (TXT).
  • Interface Tesseract OCR créée (Vintasoft.Ocr.Tesseract.dll):
    • Donnant accès aux fonctionnalités du moteur Tesseract OCR.
    • Capacité à reconnaître du texte dans une image.
    • Capacité à reconnaître du texte sur n'importe quelle zone d'une image.
    • Langues prises en charge: anglais, arabe, bulgare, catalan, tchèque, cherokee, chinois simplifié, chinois traditionnel, danois, néerlandais, finnois, français, allemand, grec, hébreu, hindi, hongrois, indonésien, italien, japonais, coréen, letton, lituanien, norvégien, polonais, portugais, roumain, russe, serbe, slovaque, slovène, espagnol, suédois, tagalog, thaï, turc, ukrainien, vietnamien.
    • Capacité à recevoir la progression de la reconnaissance.
    • Possibilité d'obtenir/définir les valeurs des variables Tesseract OCR.
    • Possibilité d'utiliser des dictionnaires personnalisés.
  • Une interface permettant de générer des fichiers PDF avec la possibilité de rechercher du texte a été créée (Vintasoft.Pdf.Ocr.dll):
    • La possibilité d'enregistrer les résultats de reconnaissance OCR dans un document PDF sous forme de texte.
    • La possibilité d'enregistrer les résultats de reconnaissance OCR dans un document PDF sous forme de texte masqué situé sous l'image.