Evitar la extracción de texto de un documento PDF ofuscando el texto

Categoría del blog: PDF.NET

18.05.2020

VintaSoft Imaging .NET SDK admite la capacidad de ofuscar la codificación de texto para todos los tipos de fuente.

¿Cuál es el propósito? Por ejemplo, si publica un documento con acceso abierto (o se lo entrega a un tercero) y no desea que el texto se extraiga fácilmente copiando y pegando en ningún visor de PDF.

Solución 1: Prohíba la extracción de texto mediante las opciones de seguridad del documento PDF. Sin embargo, el cumplimiento de la configuración dependerá de la aplicación que el usuario utilice para visualizar el documento. El texto se puede extraer fácilmente si el visor de PDF ignora la configuración de seguridad.

Solución 2: Elimine por completo la información sobre la codificación del texto y confunda los glifos de las fuentes y los códigos de los símbolos en la página. Esto se puede hacer utilizando la función para ofuscar la codificación del texto que ofrece VintaSoft PDF .NET Plug-in. El mecanismo de ofuscación elimina por completo la información sobre la codificación del texto, confunde los glifos de los símbolos en la fuente y en la página, y duplica las fuentes y los glifos de los símbolos. El texto ofuscado de esa manera se puede extraer utilizando únicamente OCR.

Revisemos la ofuscación de un documento PDF simple (document-without-text-obfuscation.pdf) con la aplicación VintaSoft PDF Editor Demo.

El documento contiene dos páginas. Se escribieron cuatro oraciones con tres fuentes diferentes.

La primera oración de la primera y la segunda página se escribió con la misma fuente.
Texto antes de la ofuscación de la codificación de texto en el documento PDF

El panel de extracción de texto y el cuadro de diálogo de visualización de fuentes muestran que todos los símbolos tienen la codificación de texto correcta.
Caracteres de texto antes de la ofuscación de la codificación de texto en el documento PDF

El cuadro de diálogo de ofuscación de codificación de texto se puede llamar usando el menú de la aplicación: Texto -> Ofuscar codificación de texto -> Configuración:
Configuración estándar para la ofuscación de codificación de texto en documentos PDF

Realicemos la ofuscación con la configuración predeterminada y revisemos el documento de salida con el texto ofuscado: document-with-default-text-obfuscation.pdf.

La revisión del documento muestra que las fuentes se modificaron por completo y que los glifos se reubicaron aleatoriamente. El texto extraído se puede ver en el panel de extracción de texto.
Texto después de la ofuscación de la codificación de texto en un documento PDF

Como la primera oración de ambas páginas se escribió con la misma fuente, los símbolos de la primera palabra (resaltados en verde) son los mismos:
La misma palabra está escrita usando una fuente después de la ofuscación de codificación de texto en un documento PDF

Podrías decir: "Escribiré un programa simple y extraeré el texto. Crearé manualmente una tabla de mapeo de caracteres y decodificaré el texto. Sí. Esto es posible, especialmente cuando solo se presentan unas pocas fuentes en el documento. Por eso hemos implementado la configuración de ofuscación, que hace que la decodificación sea prácticamente imposible.

Abrimos de nuevo el cuadro de diálogo de ofuscación de codificación de texto y: Configuración para la ofuscación de codificación de texto fuerte en documentos PDF

Después de esto, ofusquemos la codificación de texto en el documento PDF una vez más y revisemos el documento PDF de salida con el texto ofuscado: document-with-strong-text-obfuscation.pdf.

Ahora podemos observar que para la letra "e" se usaron diferentes glifos y el texto extraído incluirá símbolos de esta letra con diferentes códigos.
El mismo carácter se escribe con diferentes glifos después de la ofuscación de la codificación de texto en un documento PDF

La palabra "Texto" de la primera línea ahora se escribe con diferentes fuentes. Cada fuente utiliza su propia ubicación aleatoria y duplicación de glifos. Ahora los resultados de esta extracción de palabras de la primera y la segunda página son absolutamente diferentes:
La misma palabra se escribe con diferentes fuentes tras la ofuscación de la codificación de texto en un documento PDF