VintaSoft OCR.NET Plug-in - 产品开发历史

有关产品版本的信息

在此页面上,您可以获得有关 VintaSoft OCR .NET Plug-in 开发的一般历史的信息。有关 API SDK 更改的信息可以在文档中找到。

  • .NET开发:
    • 在 Windows 和 Linux 上添加了对 .NET 9 的支持。
    • 所使用的Tesseract OCR引擎已更新至5.5.0版本。
    • Vintasoft.Imaging.Ocr.ML 版本现在使用 Microsoft.ML 4.0.0。
    • 应用程序演示:
      • 网络演示应用程序"OCR Demo"现在允许您一次识别所有上传图像中的文本,并将文本识别结果保存在可搜索的 PDF 文档中并显示创建的可搜索 PDF 文档,并能够突出显示和搜索文本。
  • .NET开发:
    • 添加了使用基于 Microsoft.ML 的神经网络识别手写数字字符串的功能。
    • 小错误已修复。
  • .NET开发:
    • 使用的Tesseract OCR引擎已更新至版本5.3.4。
  • 添加了对 Windows、Linux 和 macOS 上的 .NET 8.0 的支持。
  • 使用的Tesseract OCR引擎已更新至版本5.3.3。
  • 现在从图像分割命令接收到的所有文本块都被标记为 RecognizeSingleColumn 类型的块。以前,块被标记为 RecognizeSingleBlocks。这一变化提高了复杂文本的识别质量,并且没有降低文本识别的整体性能。
  • .NET开发:
    • 使用的Tesseract OCR引擎已更新至版本5.3。
  • .NET开发:
    • 添加了对 Windows 和 Linux 上的 .NET 7 的支持。
    • 增加了在Linux中识别文本的能力。
    • 改进的区域检测算法已识别的字符。
    • 演示应用程序:
      • OcrDemo 添加了在 TextOverImage 模式下创建可搜索 PDF 文档的功能。
    • 几个小错误已被修复。
  • .NET开发:
    • 支持的平台:
      • 添加了对 Windows .NET 6 的支持。
    • 支持的开发环境:
      • 添加了对 Visual Studio 2022 的兼容性支持。
    • 支持的操作系统:
      • 添加了兼容性支持操作系统为 Windows 11。
      • 与 Windows Server 2003 的兼容性已停止。
    • 所使用的Tesseract OCR引擎已更新至5.0版本。我们的测试表明,Tesseract OCR 5 和 Tesseract OCR 4 提供大致相同的 OCR 结果,但 Tesseract OCR 5 的速度比 Tesseract OCR 4 快 2 倍。
    • 添加了将 OcrPage 对象转换为 TextRegion 对象的功能(方法 OcrDocument.Create 和 OcrPage.Create)。
    • 演示应用程序:
      • OCR 演示中已添加新功能:
        • 已添加从 PDF 文档文本下载 OCR 结果的功能。
    • 几个小错误已被修复。
  • Web 开发:
    • 演示应用程序:
      • "ASP.NET OCR1 Demo"代码已得到改进("ASP.NET Core Angular OCR Demo"、"ASP.NET MVC OCR Demo"、"ASP.NET WebForms OCR Demo"),现在演示应用程序允许:
        • 在 OCR 之前预览文档
        • 在识别文本之前处理文档页面
        • 识别整个文档、单个页面或页面区域中的文本。
    • 修复了 OCR Web 服务中的几个小错误。
  • .NET开发:
    • 支持的平台:
      • 添加了对 Windows .NET 5 的支持。
  • .NET开发:
    • 支持的平台:
      • 添加了对 Windows .NET Core 3 的支持(无 UI 控件)。
        已创建以下 .NET Core 程序集:
        • Vintasoft.Imaging.Ocr.dll
        • Vintasoft.Imaging.Ocr.Tesseract.dll
      • 对 .NET Framework 2.0 的支持已停止,SDK 现在支持 .NET Framework 4+ 和 3.5。
    • 所使用的Tesseract OCR引擎已更新至版本4.1.0。
  • 使用的Tesseract OCR引擎已更新至版本4.0:
    • 提高了文本识别的性能和质量。
    • 添加了对识别新语言的支持。
  • 添加了使用 Tesseract OCR 功能同时识别多种语言文本的功能。此前,使用 SDK 功能可以同时识别多种语言的文本。
  • OcrDemo演示应用程序添加了选择多种语言进行文本识别的功能。
  • 使用的Tesseract OCR引擎已更新至版本3.04:
    • 提高文本识别质量
    • 支持的识别语言列表已扩展。
  • 添加了在多线程环境中使用 Tesseract OCR 引擎的功能。
  • 提高了彩色图像中文本识别的质量。
  • 识别彩色图像中的文本时减少了峰值内存使用量。
  • 添加了将识别结果树导入/导出为 HOCR 格式的功能。
  • 许多小修复和改进。
  • 添加了在文本识别之前指定文本区域正交旋转角度的功能。以前,所有文本都被识别为未旋转。
  • OCR 演示现在可以使用 MRC 压缩创建可搜索的 PDF 文档。
  • 几项细微改进。
  • 改进了OcrDemo演示应用程序的代码。
  • 程序集已重命名,命名空间结构也已更改。文档中提供了更详细的信息。
  • 使用的Tesseract OCR引擎已更新至版本3.02。
    • OCR 质量得到改善。
    • 新支持的语言:南非荷兰语、阿尔巴尼亚语、阿塞拜疆语、白俄罗斯语、孟加拉语、爱沙尼亚语、巴斯克语、法兰克语、加利西亚语、克罗地亚语、冰岛语、马拉雅拉姆语、马其顿语、马耳他语、马来语、斯瓦希里语、泰米尔语、泰卢固语。
  • 一些小修复。
  • 基本 OCR .NET 接口已创建(Vintasoft.Ocr.dll):
    • 识别图像或图像集合上的文本的功能。
    • 能够识别图像任意区域上的文本。
    • 能够接收识别进度。
    • 能够在识别之前分割图像并为每个找到的区域设置识别参数。
    • 能够以层次结构的形式获取识别结果:文档、页面、区域、段落、行、符号。
    • 能够浏览识别结果。
    • 能够编辑识别结果。
    • 能够将识别结果保存为文本(TXT)文档。
  • Tesseract OCR 接口已创建 (Vintasoft.Ocr.Tesseract.dll):
    • 提供对 Tesseract OCR 引擎功能的访问。
    • 能够识别图像上的文本。
    • 能够识别图像任意区域上的文本。
    • 支持的语言:英语、阿拉伯语、保加利亚语、加泰罗尼亚语、捷克语、切罗基语、简体中文、繁体中文、丹麦语、荷兰语、芬兰语、法语、德语、希腊语、希伯来语、印地语、匈牙利语、印度尼西亚语、意大利语、日语、韩语、拉脱维亚语、立陶宛语, 挪威语, 波兰语, 葡萄牙语, 罗马尼亚语, 俄语,塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、他加禄语、泰语、土耳其语、乌克兰语、越南语。
    • 能够接收识别进度。
    • 能够获取/设置Tesseract OCR变量的值。
    • 能够使用自定义词典。
  • 已创建用于生成 PDF 文件的接口,并且能够搜索文本 (Vintasoft.Pdf.Ocr.dll):
    • 能够将 OCR 识别结果保存在PDF 文档作为文本。
    • 能够将 OCR 识别结果保存在 PDF 文档中,作为位于图像下方的隐藏文本。