PDF-i teisendamine HTML-iks

Töölaud
Dokumentatsioon
API

teisendab PDF-i iseseisvaks HTML-leheks, millel on valitav tekstikiht, ilma ühtegi faili üles laadimata; teisendus toimub täielikult teie brauseris

Lohistage PDF siia või klõpsake selle valimiseks

Teie fail ei lahku kunagi teie brauserist.

Kaasa valitav tekst

Renderdamise kvaliteet

Eelvaade

Milleks PDF-i HTML-iks teisendamine kasulik on?

See tööriist muudab PDF-faili iseseisvaks HTML-leheks, mis taasesitab täpselt originaali välimuse, lehekülg lehekülje haaval, säilitades samal ajal valitava ja kopeeritava teksti.

Loodud HTML on üksainus iseseisev dokument: iga PDF-i lehekülg muutub paigutatud plokiks, mille taustal on lehekülje pilt ja peal läbipaistev tekstikiht. Saate seda eelvaadata, alla laadida või kopeerida ühe klõpsuga.

Kuidas tööriist töötab?

Kogu teisendamine toimub teie brauseris, tänu renderdusmootorile pdf.js (sama, mida kasutab Firefox). Teie faili ei saadeta kunagi serverisse: see on otsustav eelis konfidentsiaalsete, lepinguliste või regulatiivsete dokumentide puhul.

Iga lehekülg renderdatakse kõrglahutusega pildiks (teie valite kvaliteedi), seejärel lisatakse nähtamatu tekstikiht, et võimaldada valimist ja otsimist. Saate selle kihi välja lülitada, kui soovite ainult visuaalset renderdust.

Levinud kasutusjuhud

Integreerige PDF veebilehele, säilitades samal ajal valitava teksti.
Arhiveerige või jagage dokumenti vaadatavas vormingus ilma PDF-lugejata.
Eraldage ja kopeerige PDF-i tekst lehekülje kaupa.
Vaadake kiiresti PDF-i sisu eelvaadet ilma spetsiaalse tarkvarata.

Millist täpsust oodata?

Visuaalne renderdus on väga täpne, sest iga lehekülg on PDF-mootori enda loodud pilt: fondid, paigutus, värvid ja graafika ilmuvad nagu originaalis.

Seevastu ei ole tegemist „semantilise" taasredigeeritava HTML-iga: vektorgraafika renderdatakse pildiks ja tekstikiht teenib eelkõige valimist, selle paigutus on ligikaudne. Skannitud PDF-i (pilt ilma tekstita) puhul ei saa ühtegi tekstikihti luua ilma optilise tuvastuseta (OCR).

Korduma kippuvad küsimused

Kas minu fail saadetakse kuhugi?

Ei. Teisendamine toimub täielikult teie brauseris; PDF ei lahku kunagi teie seadmest ega edastata ühtegi serverisse.

Kas HTML-i tekst on valitav?

Jah, kui PDF sisaldab tegelikku teksti. Iga lehekülje pildi peale lisatakse läbipaistev tekstikiht, et võimaldada valimist, kopeerimist ja otsimist.

Miks tundub tekst valimisel veidi nihkes?

Nähtav renderdus pärineb lehekülje pildist; tekstikiht on paigutatud ligikaudselt. Võimalik nihe mõjutab ainult valikuala, mitte dokumendi välimust.

Kas skannitud PDF-id töötavad?

Iga lehekülje pilt taasesitatakse korralikult, kuid ühtegi teksti ei saa valida: skannitud PDF ei sisalda teksti, ainult pilti. Vajalik oleks optiline tuvastus (OCR).

Kas mitmeleheküljelisi dokumente toetatakse?

Jah. Kõik leheküljed teisendatakse ja koondatakse ühte HTML-faili originaaldokumendi järjekorras.

Päringunäide

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Sisendskeem

Väli	Tüüp	Kohustuslik	Vaikimisi
`file`	file		–

see tööriist ootab faili - kasuta Content-Type multipart/form-data application/json asemel

Lõpp-punktid

GET https://cdrn.fr/api/v1/tools - loetleb kõik saadaolevad tööriistad
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - toob selle tööriista skeemi
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - täidab selle tööriista JSON-payloadiga