VintaSoft OCR .NET Plug-in - Historial de desarrollo

Información sobre las versiones del producto

En esta página puede obtener información sobre el historia de desarrollo general VintaSoft OCR .NET Plug-in. Puede encontrar información sobre los cambios en el SDK de API en la documentación.

  • .NET-desarrollo:
    • Se agregó soporte para .NET 9 en Windows y Linux.
    • El motor Tesseract OCR utilizado se ha actualizado a la versión 5.5.0.
    • La compilación Vintasoft.Imaging.Ocr.ML ahora usa Microsoft.ML 4.0.0.
    • Demostración de la aplicación:
      • La aplicación de demostración web "OCR Demo" ahora le permite reconocer texto en todas las imágenes cargadas a la vez, guardar el resultado del reconocimiento de texto en un documento PDF con capacidad de búsqueda y mostrar el documento PDF con capacidad de búsqueda creado con la capacidad de seleccionar y buscar texto.
  • .NET-desarrollo:
    • Se agregó la capacidad de reconocer una cadena de números escritos a mano usando una red neuronal basada en Microsoft.ML.
    • Errores menores solucionados.
  • .NET-desarrollo:
    • El motor Tesseract OCR utilizado se ha actualizado a la versión 5.3.4.
  • Se agregó soporte para .NET 8.0 en Windows, Linux y macOS.
  • El motor Tesseract OCR utilizado se ha actualizado a la versión 5.3.3.
  • Ahora todos los bloques de texto que se reciben del comando de segmentación de imágenes se marcan como bloques de tipo RecognizeSingleColumn. Anteriormente, los bloques se marcaban como RecognizeSingleBlocks. Este cambio aumentó la calidad del reconocimiento de texto complejo y no redujo el rendimiento general del reconocimiento de texto.
  • .NET-desarrollo:
    • El motor Tesseract OCR utilizado se actualizó a la versión 5.3.
  • .NET-desarrollo:
    • Se agregó soporte para .NET 7 en Windows y Linux.
    • Se agregó la capacidad de reconocer texto en Linux.
    • Algoritmo mejorado para determinar regiones de caracteres reconocidos.
    • Aplicaciones de demostración:
      • OcrDemo ha agregado la capacidad de crear un documento PDF con capacidad de búsqueda en modo TextOverImage.
    • Se han solucionado varios errores menores.
  • .NET-desarrollo:
    • Plataformas compatibles:
      • Se agregó soporte para .NET 6 para Windows.
    • Entornos de desarrollo compatibles:
      • Se agregó soporte para compatibilidad con Visual Studio 2022.
    • SO compatible:
      • Se agregó soporte para compatibilidad con el sistema operativo Windows 11.
      • La compatibilidad con Windows Server 2003 ha sido descontinuada.
    • El motor Tesseract OCR utilizado se ha actualizado a la versión 5.0. Nuestras pruebas han demostrado que Tesseract OCR 5 y Tesseract OCR 4 proporcionan aproximadamente los mismos resultados de reconocimiento de texto, pero Tesseract OCR 5 es hasta 2 veces más rápido que Tesseract OCR 4.
    • Se agregó la capacidad de convertir una página OcrPage. objeto a un objeto TextRegion (métodos OcrDocument.Create y OcrPage.Create).
    • Aplicaciones de demostración:
      • Se ha añadido una nueva funcionalidad a la aplicación de demostración "OCR Demo":
        • Se ha agregado la capacidad de descargar resultados de OCR desde el texto de un documento PDF.
    • Se han solucionado varios errores menores.
  • Web-desarrollo:
    • Aplicaciones de demostración:
      • Se ha mejorado el código de la aplicación de demostración "ASP.NET OCR Demo" ("ASP.NET Core Angular OCR Demo", "ASP.NET MVC OCR Demo", "ASP.NET WebForms OCR Demo") y ahora la aplicación de demostración permite:
        • vista previa del documento antes del OCR
        • procesar páginas del documento antes del OCR
        • reconocer texto en un documento completo, una sola página o una región de una página.
    • Se corrigieron varios errores menores en el servicio web OCR.
  • .NET-desarrollo:
    • Plataformas compatibles:
      • Se agregó soporte para .NET 5 para Windows.
  • .NET-desarrollo:
    • Plataformas compatibles:
      • Se agregó soporte (sin controles de UI) para .NET Core 3 para Windows.
        Se han creado los siguientes ensamblados de .NET Core:
        • Vintasoft.Imaging.Ocr.dll
        • Vintasoft.Imaging.Ocr.Tesseract.dll
      • .NET Framework 2.0 ha sido descontinuado, el SDK ahora es compatible con .NET Framework 4+ y 3.5.
    • El motor Tesseract OCR utilizado se ha actualizado a la versión 4.1.0.
  • El motor Tesseract OCR utilizado se actualizó a la versión 4.0:
    • Mejor rendimiento y calidad del reconocimiento de texto.
    • Se agregó soporte para reconocer nuevos idiomas.
  • Se agregó la capacidad de reconocer texto en varios idiomas usando la funcionalidad Tesseract OCR. Anteriormente, era posible reconocer texto en varios idiomas a la vez utilizando la funcionalidad SDK.
  • Se ha añadido a la aplicación de demostración "OCR Demo" la capacidad de seleccionar varios idiomas para el reconocimiento de texto.
  • El motor Tesseract OCR usado se ha actualizado a la versión 3.04:
    • la calidad del reconocimiento de texto se ha mejorado
    • la lista de idiomas de reconocimiento admitidos se ha ampliado.
  • Se agregó la capacidad de usar el motor Tesseract OCR en un entorno multiproceso.
  • Se mejoró la calidad del reconocimiento de texto en imágenes en color.
  • Reducción del uso máximo de memoria al reconocer texto en imágenes en color.
  • Se agregó la capacidad de importar/exportar el árbol de resultados de reconocimiento al formato HOCR.
  • Muchas pequeñas correcciones y mejoras.
  • Se agregó la capacidad de especificar el ángulo de rotación ortogonal de una región de texto antes del reconocimiento de texto. Anteriormente, todo el texto se reconocía como no rotado.
  • La aplicación "OCR Demo" ahora puede crear documentos PDF con capacidad de búsqueda y compresión MRC.
  • Varias mejoras menores.
  • Se ha mejorado el código de la aplicación de demostración "OCR Demo".
  • Se ha cambiado el nombre de los ensamblajes y se han realizado cambios en la estructura del espacio de nombres. Información más detallada está disponible en la documentación.
  • El motor Tesseract OCR utilizado se ha actualizado a la versión 3.02.
    • Se ha mejorado la calidad del OCR.
    • Nuevos idiomas admitidos: afrikáans, albanés, azerbaiyano, bielorruso, bengalí, estonio, vasco, franco, gallego, croata, islandés, malayalam, macedonio, maltés, malayo, suajili, tamil y telugu.
  • Errores menores solucionados.
  • Se ha creado una interfaz OCR .NET básica (Vintasoft.Ocr.dll):
    • Capacidad para reconocer texto en una imagen o una colección de imágenes.
    • Capacidad de reconocer texto en una región arbitraria de la imagen.
    • Capacidad de recibir progreso de reconocimiento.
    • Capacidad de segmentar una imagen antes del reconocimiento y establecer parámetros de reconocimiento para cada una de las regiones encontradas.
    • Capacidad de obtener el resultado del reconocimiento en forma de jerarquía: documento, página, región, párrafo, línea, símbolo.
    • Capacidad de navegar a través del resultado del reconocimiento.
    • Posibilidad de editar el resultado del reconocimiento.
    • Posibilidad de guardar los resultados del reconocimiento como un documento de texto (TXT).
  • Se ha creado la interfaz Tesseract OCR (Vintasoft.Ocr.Tesseract.dll):
    • Proporcionando acceso a la funcionalidad del motor Tesseract OCR.
    • Capacidad de reconocer texto en una imagen.
    • Capacidad de reconocer texto en una región arbitraria de la imagen.
    • Idiomas admitidos: inglés, árabe, búlgaro, catalán, checo, cherokee, chino simplificado, chino tradicional, danés, holandés, finlandés, francés, alemán, griego, hebreo, hindi, húngaro, indonesio, italiano, japonés, coreano, letón, lituano , noruego, polaco, portugués, rumano, ruso, Serbio, eslovaco, esloveno, español, sueco, tagalo, tailandés, turco, ucraniano, vietnamita.
    • Capacidad de recibir progreso de reconocimiento.
    • Capacidad de obtener/establecer valores de variables OCR de Tesseract.
    • Posibilidad de utilizar diccionarios personalizados.
  • Se ha creado una interfaz para generar archivos PDF con la capacidad de buscar texto (Vintasoft.Pdf.Ocr.dll):
    • Capacidad de guardar los resultados del reconocimiento OCR en un Documento PDF como texto.
    • Posibilidad de guardar los resultados del reconocimiento OCR en un documento PDF como texto oculto ubicado debajo de la imagen.