VintaSoft OCR.NET Plug-in - 開発履歴

製品リリースに関する情報

このページでは、一般的な開発履歴 VintaSoft OCR .NET Plug-in。 API SDK の変更に関する情報はドキュメントに記載されています。

  • .NET 開発:
    • のサポートを追加しました。 NET 9 (Windows および Linux)。
    • 使用されている Tesseract OCR エンジンはバージョン 5.5.0 に更新されました。
    • Vintasoft.Imaging.Ocr.ML ビルドは Microsoft.ML 4.0.0 を使用するようになりました。
    • アプリケーションのデモ:
      • Web デモ アプリケーション「OCR Demo」では、アップロードされたすべての画像内のテキストを一度に認識し、テキスト認識結果を検索可能な PDF ドキュメントに保存できるようになりました。作成された検索可能な PDF ドキュメントを表示し、テキストを強調表示して検索することができます。
  • .NET 開発:
    • Microsoft.ML に基づくニューラル ネットワークを使用して手書きの数字の文字列を認識する機能が追加されました。
    • 軽微なバグが修正されました。
  • .NET 開発:
    • 使用される Tesseract OCR エンジンはバージョン 5.3.4 に更新されました。
  • Windows、Linux、macOS での .NET 8.0 のサポートを追加しました。
  • 使用される Tesseract OCR エンジンがバージョン 5.3.3 に更新されました。
  • 画像セグメンテーション コマンドから受信したすべてのテキスト ブロックが、RecognizeSingleColumn タイプのブロックとしてマークされるようになりました。以前は、ブロックは RecognizeSingleBlocks としてマークされていました。この変更により、複雑なテキストの認識品質が向上し、テキスト認識の全体的なパフォーマンスは低下しませんでした。
  • .NET 開発:
    • 使用される Tesseract OCR エンジンはバージョン 5.3 に更新されました。
  • .NET 開発:
    • Windows および Linux での .NET 7 のサポートを追加しました。
    • Linux でテキストを認識する機能が追加されました。
    • 改善されました認識された文字の領域を決定するアルゴリズム。
    • デモ アプリケーション:
      • OcrDemo には、TextOverImage モードで検索可能な PDF ドキュメントを作成する機能が追加されました。
    • いくつかの小さなバグが修正されました。
  • .NET 開発:
    • サポートされるプラットフォーム:
      • Windows 用 .NET 6 のサポートを追加しました。
    • サポートされる開発環境:
      • Visual Studio 2022 の互換性サポートを追加しました。
    • サポートされる OS:
      • 互換性サポートを追加しましたOS Windows 11 を使用。
      • Windows Server OS との互換性は廃止されました。 2003。
    • 使用されている Tesseract OCR エンジンはバージョン 5.0 に更新されました。当社のテストでは、Tesseract OCR 5 と Tesseract OCR 4 はほぼ同じ OCR 結果を提供しますが、Tesseract OCR 5 は Tesseract OCR 4 よりも最大 2 倍高速であることが示されました。
    • OcrPage オブジェクトを変換する機能を追加しましたTextRegion オブジェクト (OcrDocument.Create メソッドと OcrPage.Create メソッド) に変換します。
    • デモ アプリケーション:
      • OCR デモに新機能が追加されました:
        • PDF ドキュメントのテキストから OCR 結果をロードする機能が追加されました。
    • いくつかの小さなバグが修正されました。
  • Web 開発:
    • デモ アプリケーション:
      • ASP.NET OCR デモ コードの改善 (ASP.NET Core Angular OCR デモ、ASP.NET MVC OCR デモ、ASP .NET WebForms OCR デモ)、デモ アプリケーションで次のことができるようになりました:
        • OCR の前にドキュメントをプレビューする
        • テキストを認識する前に文書ページを処理します
        • 文書全体、単一ページ、またはページの領域内のテキストを認識します。
    • OCR Web サービスのいくつかの小さなバグを修正しました。
  • .NET 開発:
    • サポートされるプラットフォーム:
      • Windows 用 .NET 5 のサポートを追加しました。
  • .NET 開発:
    • サポートされるプラットフォーム:
      • Windows 用 .NET Core 3 のサポート (UI コントロールなし) を追加しました。
        次の .NET Core アセンブリが作成されました:
        • Vintasoft.Imaging.Ocr.dll
        • Vintasoft.Imaging.Ocr.Tesseract.dll
      • .NET Framework 2.0 のサポートは廃止され、SDK は .NET Framework 4+ および 3.5 をサポートするようになりました。
    • 使用されている Tesseract OCR エンジンはバージョン 4.1.0 に更新されました。
  • 使用される Tesseract OCR エンジンはバージョン 4.0 に更新されました:
    • テキスト認識のパフォーマンスと品質が向上しました。
    • 新しい言語を認識するためのサポートが追加されました。
  • Tesseract OCR 機能を使用して、複数の言語のテキストを認識する機能が追加されました。以前は、SDK 機能を使用して複数の言語のテキストを一度に認識することができました。
  • OcrDemo デモ アプリケーションには、テキスト認識用に複数の言語を選択する機能が追加されました。
  • 使用されている Tesseract OCR エンジンがバージョン 3.04 に更新されました:
    • テキスト認識が改善されました品質
    • サポートされる認識言語のリストが拡張されました。
  • マルチスレッド環境で Tesseract OCR エンジンを使用する機能が追加されました。
  • カラー画像でのテキスト認識の品質が向上しました。
  • カラー画像内のテキストを認識する際のピーク時のメモリ使用量を削減しました。
  • 認識結果のツリーを HOCR 形式にインポート/エクスポートする機能を追加しました。
  • 多くの小さな修正と改善。
  • テキスト認識前にテキスト領域の直交回転角度を指定する機能が追加されました。以前は、すべてのテキストが回転されていないものとして認識されていました。
  • OCR デモでは、MRC 圧縮を使用して検索可能な PDF ドキュメントを作成できるようになりました。
  • いくつかの小さな改善。
  • OcrDemo デモ アプリケーションのコードを改善しました。
  • アセンブリの名前が変更され、名前空間構造が変更されました。詳細については、ドキュメントを参照してください。
  • 使用される Tesseract OCR エンジンはバージョン 3.02 に更新されました。
    • OCR の品質が向上しました。
    • 新たにサポートされる言語: アフリカーンス語、アルバニア語、アゼルバイジャン語、ベラルーシ語、ベンガル語、エストニア語、バスク語、フランク語、ガリシア語、クロアチア語、アイスランド語、マラヤーラム語、マケドニア語、マルタ語、マレー語、スワヒリ語、タミル語、テルグ語。
  • いくつかの軽微な修正。
  • 基本的な OCR .NET インターフェイスが作成されました (Vintasoft.Ocr.dll):
    • 画像または画像のコレクション上のテキストを認識する機能。
    • 画像の任意の領域上のテキストを認識する機能。
    • 認識の進行状況を受信する機能。
    • 認識前に画像をセグメント化し、見つかった領域ごとに認識パラメータを設定する機能。
    • 階層形式で認識結果を取得する機能: 文書、ページ、領域、段落、行、記号。
    • 認識結果内を移動する機能。
    • 認識結果を編集する機能。
    • 認識結果をテキスト (TXT) ドキュメントとして保存する機能。
  • Tesseract OCR インターフェイスが作成されました (Vintasoft.Ocr.Tesseract.dll):
    • Tesseract OCR エンジンの機能へのアクセスを提供します。
    • 画像上のテキストを認識する機能。
    • 画像の任意の領域上のテキストを認識する機能。
    • サポートされる言語: 英語、アラビア語、ブルガリア語、カタロニア語、チェコ語、チェロキー語、簡体字中国語、繁体字中国語、デンマーク語、オランダ語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、ハンガリー語、インドネシア語、イタリア語、日本語、韓国語、ラトビア語、リトアニア語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、タガログ語、タイ語、トルコ語、ウクライナ語、ベトナム語。
    • 認識の進行状況を受信する機能。
    • Tesseract OCR 変数の値を取得/設定する機能。
    • カスタム辞書を使用する機能。
  • テキスト検索機能を備えた PDF ファイルを生成するためのインターフェイス (Vintasoft.Pdf.Ocr.dll) が作成されました:
    • OCR 認識結果をファイルに保存する機能テキストとしての PDF ドキュメント。
    • OCR 認識結果を、画像の下にある隠しテキストとして PDF ドキュメントに保存する機能。