VintaSoft OCR .NET Plug-in - Histórico de desenvolvimento

Informações sobre lançamentos de produtos

Nesta página você pode obter informações sobre o histórico geral de desenvolvimento do VintaSoft OCR .NET Plug-in. Informações sobre alterações na API do SDK podem ser encontradas na documentação.

  • .NET-desenvolvimento:
    • Adicionado suporte para .NET 9 no Windows e Linux.
    • O mecanismo de OCR Tesseract usado foi atualizado para a versão 5.5.0.
    • O assembly Vintasoft.Imaging.Ocr.ML agora usa Microsoft.ML 4.0.0.
    • Aplicativos de demonstração:
      • O aplicativo de demonstração da Web "OCR Demo" agora permite que você reconheça texto em todas as imagens carregadas de uma só vez, salve o resultado do reconhecimento de texto em um documento PDF pesquisável e exiba o documento PDF pesquisável criado com a capacidade de selecionar e pesquisar texto.
  • .NET-desenvolvimento:
    • Adicionada a capacidade de reconhecer uma sequência de dígitos manuscritos usando uma rede neural baseada em Microsoft.ML.
    • Pequenos bugs corrigidos.
  • .NET-desenvolvimento:
    • O mecanismo de OCR Tesseract usado foi atualizado para a versão 5.3.4.
  • Suporte adicionado para .NET 8.0 no Windows, Linux e macOS.
  • O mecanismo de OCR Tesseract usado foi atualizado para a versão 5.3.3.
  • Agora todos os blocos de texto recebidos do comando de segmentação de imagem são marcados como blocos do tipo RecognizeSingleColumn. Anteriormente, os blocos eram marcados como blocos RecognizeSingleBlock. Essa mudança aumentou a qualidade do reconhecimento de texto complexo sem reduzir o desempenho geral do reconhecimento de texto.
  • .NET-desenvolvimento:
    • O mecanismo de OCR Tesseract usado foi atualizado para a versão 5.3.
  • .NET-desenvolvimento:
    • Adicionado suporte para .NET 7 no Windows e Linux.
    • Adicionada a capacidade de reconhecer texto no Linux.
    • Melhorado o algoritmo para determinar as regiões de caracteres reconhecidos.
    • Aplicativos de demonstração:
      • A capacidade de criar um documento PDF pesquisável no modo TextOverImage foi adicionada ao OcrDemo.
    • Vários pequenos bugs foram corrigidos.
  • .NET-desenvolvimento:
    • Plataformas suportadas:
      • Adicionado suporte para .NET 6 para Windows.
    • Ambientes de desenvolvimento suportados:
      • Adicionado suporte para compatibilidade com o Visual Studio 2022.
    • SO suportado:
      • Adicionado suporte para compatibilidade com o Windows 11.
      • Removido suporte para compatibilidade com o Windows Server 2003.
    • O mecanismo de OCR Tesseract usado foi atualizado para a versão 5.0. Nossos testes mostraram que o Tesseract OCR 5 e o Tesseract OCR 4 fornecem aproximadamente os mesmos resultados de reconhecimento de texto, mas o Tesseract OCR 5 é até 2x mais rápido que o Tesseract OCR 4.
    • Adicionada a capacidade de converter um objeto OcrPage em um objeto TextRegion (métodos OcrDocument.Create e OcrPage.Create).
    • Aplicativos de demonstração:
      • Nova funcionalidade foi adicionada ao aplicativo de demonstração "OCR Demo":
        • A capacidade de baixar resultados de OCR do texto de um documento PDF foi adicionada.
    • Vários pequenos bugs foram corrigidos.
  • Web-desenvolvimento:
    • Aplicativos de demonstração:
      • O código do aplicativo de demonstração "ASP.NET OCR Demo" ("ASP.NET Core Angular OCR Demo", "ASP.NET MVC OCR Demo", "ASP.NET WebForms OCR Demo") foi melhorado e agora o aplicativo de demonstração permite que você:
        • visualize o documento antes de reconhecer o texto
        • processe as páginas do documento antes de reconhecer o texto
        • reconheça o texto em todo o documento, em uma página separada ou em uma região da página.
    • Vários pequenos bugs no serviço web OCR foram corrigidos.
  • .NET-desenvolvimento:
    • Plataformas suportadas:
      • Suporte adicionado para .NET 5 para Windows.
  • .NET-desenvolvimento:
    • Plataformas suportadas:
      • Suporte adicionado (sem controles de interface do usuário) para .NET Core 3 para Windows.
        Os seguintes assemblies do .NET Core foram criados:
        • Vintasoft.Imaging.Ocr.dll
        • Vintasoft.Imaging.Ocr.Tesseract.dll
      • O suporte para .NET Framework 2.0 foi descontinuado. O SDK agora oferece suporte para .NET Framework 4+ e 3.5.
    • O mecanismo de OCR Tesseract usado foi atualizado para a versão 4.1.0.
  • O mecanismo de OCR Tesseract usado foi atualizado para a versão 4.0:
    • Desempenho e qualidade de reconhecimento de texto aprimorados.
    • Adicionado suporte para reconhecimento de novos idiomas.
  • Adicionada a capacidade de reconhecer texto em vários idiomas ao mesmo tempo usando a funcionalidade Tesseract OCR. Anteriormente, era possível reconhecer texto em vários idiomas ao mesmo tempo usando a funcionalidade do SDK.
  • O aplicativo de demonstração "OCR Demo" agora permite que você selecione vários idiomas para reconhecimento de texto.
  • O mecanismo de OCR Tesseract usado foi atualizado para a versão 3.04:
    • qualidade de reconhecimento de texto aprimorada
    • lista de idiomas de reconhecimento suportados expandida.
  • Adicionada a capacidade de usar o mecanismo de OCR Tesseract em um ambiente multithread.
  • A qualidade do reconhecimento de texto em imagens coloridas foi melhorada.
  • Redução do pico de uso de memória ao reconhecer texto em imagens coloridas.
  • Adicionada a capacidade de importar/exportar a árvore de resultados de reconhecimento no formato HOCR.
  • Muitas pequenas correções e melhorias.
  • Adicionada a capacidade de especificar o ângulo de rotação ortogonal de uma região de texto antes do reconhecimento de texto. Anteriormente, todo o texto era reconhecido como não girado.
  • O aplicativo de demonstração "OCR Demo" agora pode criar documentos PDF pesquisáveis ​​com compactação MRC.
  • Várias pequenas melhorias.
  • O código do aplicativo de demonstração "OCR Demo" foi melhorado.
  • Os assemblies foram renomeados e alterações foram feitas na estrutura do namespace. Informações mais detalhadas estão disponíveis na documentação.
  • O mecanismo de OCR Tesseract usado foi atualizado para a versão 3.02.
    • A qualidade do OCR foi melhorada.
    • Novos idiomas suportados: africâner, albanês, azerbaijano, bielorrusso, bengali, estoniano, basco, franco, galego, croata, islandês, malaiala, macedônio, maltês, malaio, suaíli, tâmil, télugo.
  • Pequenos bugs corrigidos.
  • Interface OCR .NET básica (Vintasoft.Ocr.dll) criada:
    • Capacidade de reconhecer texto em uma imagem ou coleção de imagens.
    • Capacidade de reconhecer texto em qualquer região de uma imagem.
    • Habilidade de receber progresso de reconhecimento.
    • A capacidade de segmentar uma imagem antes do reconhecimento e definir parâmetros de reconhecimento para cada uma das regiões encontradas.
    • Capacidade de obter o resultado do reconhecimento na forma de uma hierarquia: Documento, Página, Região, Parágrafo, Linha, Símbolo.
    • Possibilidade de navegar pelo resultado do reconhecimento.
    • Possibilidade de editar o resultado do reconhecimento.
    • Capacidade de salvar resultados de reconhecimento como um documento de texto (TXT).
  • Interface Tesseract OCR (Vintasoft.Ocr.Tesseract.dll) criada:
    • Fornecendo acesso à funcionalidade do mecanismo Tesseract OCR.
    • Capacidade de reconhecer texto em uma imagem.
    • Capacidade de reconhecer texto em qualquer região de uma imagem.
    • Idiomas suportados: Inglês, árabe, búlgaro, catalão, tcheco, cherokee, chinês simplificado, chinês tradicional, dinamarquês, holandês, finlandês, francês, alemão, grego, hebraico, hindi, húngaro, indonésio, italiano, japonês, coreano, letão, lituano, norueguês, polonês, português, romeno, russo, sérvio, eslovaco, esloveno, espanhol, sueco, tagalo, tailandês, turco, ucraniano, vietnamita.
    • Habilidade de receber progresso de reconhecimento.
    • Capacidade de obter/definir valores de variáveis ​​do Tesseract OCR.
    • Capacidade de usar dicionários personalizados.
  • Foi criada uma interface para gerar arquivos PDF com capacidade de pesquisar texto (Vintasoft.Pdf.Ocr.dll):
    • A capacidade de salvar resultados de reconhecimento de OCR em um documento PDF como texto.
    • A capacidade de salvar resultados de reconhecimento de OCR em um documento PDF como texto oculto localizado abaixo da imagem.