Konvertuoti PDF į HTML

Skydelis
Dokumentacija
API

konvertuoja PDF į savarankišką HTML puslapį su pažymimu teksto sluoksniu, neperkeliant jokio failo; konversija visiškai atliekama jūsų naršyklėje

Vilkite PDF čia arba spustelėkite, kad pasirinktumėte

Jūsų failas niekada nepalieka jūsų naršyklės.

Įtraukti pažymimą tekstą

Atvaizdavimo kokybė

Peržiūra

Kam skirtas PDF konvertavimas į HTML?

Šis įrankis paverčia PDF failą savarankišku HTML puslapiu, kuris tiksliai atkartoja originalo išvaizdą, puslapis po puslapio, kartu išsaugodamas pažymimą ir kopijuojamą tekstą.

Sukurtas HTML yra vientisas ir savarankiškas dokumentas: kiekvienas PDF puslapis tampa pozicionuotu bloku su puslapio vaizdu fone ir skaidriu teksto sluoksniu viršuje. Galite jį peržiūrėti, atsisiųsti arba nukopijuoti vienu paspaudimu.

Kaip veikia įrankis?

Visa konversija vyksta jūsų naršyklėje, naudojant pdf.js atvaizdavimo variklį (tą patį, kurį naudoja Firefox). Jūsų failas niekada nesiunčiamas į serverį: tai lemiamas privalumas konfidencialiems, sutartiniams ar reguliuojamiems dokumentams.

Kiekvienas puslapis atvaizduojamas kaip didelės raiškos vaizdas (jūs pasirenkate kokybę), tada uždedamas nematomas teksto sluoksnis, kad būtų galima pažymėti ir ieškoti. Galite išjungti šį sluoksnį, jei norite tik vaizdinio atvaizdavimo.

Dažni naudojimo atvejai

Įterpti PDF į tinklalapį išsaugant pažymimą tekstą.
Archyvuoti ar dalytis dokumentu peržiūrima forma be PDF skaityklės.
Išgauti ir nukopijuoti PDF tekstą puslapis po puslapio.
Greitai peržiūrėti PDF turinį be specialios programinės įrangos.

Kokio tikslumo tikėtis?

Vizualinis atvaizdavimas yra labai tikslus, nes kiekvienas puslapis yra vaizdas, sukurtas paties PDF variklio: šriftai, maketas, spalvos ir grafika atrodo taip pat kaip originale.

Tačiau tai nėra „semantinis" iš naujo redaguojamas HTML: vektorinė grafika atvaizduojama kaip vaizdas, o teksto sluoksnis pirmiausia skirtas pažymėjimui, jo pozicionavimas yra apytikslis. Nuskenuotam PDF (vaizdui be teksto) negalima sukurti jokio teksto sluoksnio be optinio simbolių atpažinimo (OCR).

Dažnai užduodami klausimai

Ar mano failas kur nors siunčiamas?

Ne. Konversija visiškai atliekama jūsų naršyklėje; PDF niekada nepalieka jūsų įrenginio ir nesiunčiamas į jokį serverį.

Ar HTML tekstą galima pažymėti?

Taip, jei PDF yra tikras tekstas. Virš kiekvieno puslapio vaizdo uždedamas skaidrus teksto sluoksnis, kad būtų galima pažymėti, kopijuoti ir ieškoti.

Kodėl pažymint tekstas atrodo šiek tiek pasislinkęs?

Matomas atvaizdavimas gaunamas iš puslapio vaizdo; teksto sluoksnis pozicionuojamas apytiksliai. Galimas poslinkis paveikia tik pažymėjimo sritį, o ne dokumento išvaizdą.

Ar veikia nuskenuoti PDF?

Kiekvieno puslapio vaizdas bus tiksliai atkurtas, bet jokio teksto nebus galima pažymėti: nuskenuotame PDF nėra teksto, tik vaizdas. Reikėtų optinio simbolių atpažinimo (OCR).

Ar tvarkomi kelių puslapių dokumentai?

Taip. Visi puslapiai konvertuojami ir sujungiami į vieną HTML failą originalaus dokumento tvarka.

Užklausos pavyzdys

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Įvesties schema

Laukas	Tipas	Privalomas	Numatytasis
`file`	file		–

šis įrankis tikisi failo - naudokite Content-Type multipart/form-data vietoj application/json

Galiniai taškai

GET https://cdrn.fr/api/v1/tools - išvardija visus galimus įrankius
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - gauna šio įrankio schemą
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - vykdo šį įrankį su JSON payload