Կանխեք տեքստի արդյունահանումը PDF փաստաթղթից՝ այն մթագնելով

Բլոգի կատեգորիա՝ PDF.NET

18.05.2020

VintaSoft Imaging .NET SDK-ն աջակցում է բոլոր տառատեսակների տեքստի կոդավորումը խեղաթյուրելու հնարավորությանը:

Ո՞րն է նպատակը։ Օրինակ, դուք հրապարակում եք փաստաթուղթ բաց մուտքով (կամ տալիս եք այն երրորդ կողմին) և չեք ցանկանում, որ փաստաթղթի տեքստը հեշտությամբ արդյունահանվի PDF դիտարկիչում պատճենելու/տեղադրելու միջոցով։

Լուծում 1. Արգելեք տեքստի արդյունահանումը՝ օգտագործելով PDF փաստաթղթի անվտանգության կարգավորումների դրոշները, սակայն կարգավորումներին համապատասխանելը կախված կլինի այն ծրագրից, որն օգտատերն օգտագործում է փաստաթուղթը դիտելու համար։ Տեքստը կարելի է հեշտությամբ արդյունահանել, եթե PDF դիտարկիչը անտեսի PDF փաստաթղթի անվտանգության կարգավորումները:

Լուծում 2. Ամբողջությամբ հեռացնել տեքստի կոդավորման մասին տեղեկատվությունը, խառնել տառատեսակի գլիֆները, խառնել սիմվոլների կոդերը էջում: Սա կարելի է անել VintaSoft PDF .NET Plug-in-ում տրամադրված տեքստի կոդավորումը մշուշոտելու ֆունկցիոնալության միջոցով: Մշուշոտման մեխանիզմն ամբողջությամբ հեռացնում է տեքստի կոդավորման մասին տեղեկատվությունը, խառնել տառատեսակի և էջի սիմվոլների գլիֆները, կրկնօրինակել տառատեսակները և սիմվոլների գլիֆները: Այս կերպ մշուշոտված տեքստը կարող է արդյունահանվել միայն OCR-ի միջոցով:

Եկեք վերանայենք պարզ PDF փաստաթղթի (document-without-text-obfuscation.pdf) մթագնումը VintaSoft PDF Editor Demo ծրագրի միջոցով:

Փաստաթուղթը պարունակում է երկու էջ: Չորս նախադասություն գրվել է երեք տարբեր տառատեսակներով:

Առաջին և երկրորդ էջերի առաջին նախադասությունը գրվել է նույն տառատեսակով:
Text before text encoding obfuscation in PDF document

Տեքստի արդյունահանման վահանակը և տառատեսակների դիտման երկխոսության պատուհանը ցույց են տալիս, որ բոլոր սիմվոլներն ունեն ճիշտ տեքստային կոդավորում:
Text characters before text encoding obfuscation in PDF document

Տեքստի կոդավորման մշուշոտման երկխոսության պատուհանը կարող է կանչվել ծրագրի ընտրացանկի միջոցով. Տեքստ -> Մշուշոտել տեքստի կոդավորումը -> Կարգավորումներ.
Standard settings for text encoding obfuscation in PDF document

Եկեք կատարենք մթագնումը լռելյայն կարգավորումներով և վերանայենք մթագնված տեքստով ստացված փաստաթուղթը:document-with-default-text-obfuscation.pdf.

Փաստաթղթի վերանայումը ցույց է տալիս, որ տառատեսակները լիովին փոխվել են, գլիֆները տեղափոխվել են պատահականորեն: Արտահանված տեքստը կարելի է տեսնել տեքստի արտահանման վահանակում:
Text after text encoding obfuscation in PDF document

Քանի որ երկու էջերում առաջին նախադասությունը գրվել է նույն տառատեսակով, երկու էջերում առաջին բառի (կանաչով ընդգծված) նշանները նույնն են.
The same word is written using one font after text encoding obfuscation in PDF document

Դուք կարող եք ասել. "Ես կգրեմ պարզ ծրագիր և կարտահանեմ տեքստը":Ես ձեռքով կկազմեմ նիշերի քարտեզագրման աղյուսակ և կվերծանեմ տեքստը։ Այո։ Սա հնարավոր է, հատկապես այն դեպքում, երբ փաստաթղթում ներկայացված են ընդամենը մի քանի տառատեսակներ։ Ահա թե ինչու մենք իրականացրել ենք խեղաթյուրման կարգավորումներ, որոնք վերծանման խնդրի լուծումը գրեթե անհնար են դարձնում։

Եկեք կրկին բացենք տեքստի կոդավորման խեղաթյուրման երկխոսության պատուհանը և՝ Settings for strong text encoding obfuscation in PDF document

Դրանից հետո եկեք կրկին մշուշոտենք տեքստի կոդավորումը PDF փաստաթղթում և վերանայենք ստացված PDF փաստաթուղթը՝ մշուշոտ տեքստով. document-with-strong-text-obfuscation.pdf.

Հիմա կարող ենք նկատել, որ "e" տառի համար օգտագործվել են տարբեր գլիֆներ, և արդյունահանված տեքստը կներառի այս տառի խորհրդանիշներ՝ տարբեր կոդերով։
The same character is written using different glyphs after text encoding obfuscation in PDF document

Առաջին տողից "Տեքստ" բառը այժմ գրված է տարբեր կերպ։ տառատեսակներ։ Յուրաքանչյուր տառատեսակում օգտագործվում է իր սեփական պատահական տեղադրությունը և գլիֆների կրկնօրինակումը։ Այժմ այս բառերի առաջին և երկրորդ էջերից արդյունահանման արդյունքները բացարձակապես տարբեր են՝
The same word is written using different fonts after text encoding obfuscation in PDF document