PDF-i teisendamine HTML-iks
- Töölaud
- Dokumentatsioon
- API
Lohistage PDF siia või klõpsake selle valimiseks
Teie fail ei lahku kunagi teie brauserist.
Eelvaade
Milleks PDF-i HTML-iks teisendamine kasulik on?
See tööriist muudab PDF-faili iseseisvaks HTML-leheks, mis taasesitab täpselt originaali välimuse, lehekülg lehekülje haaval, säilitades samal ajal valitava ja kopeeritava teksti.
Loodud HTML on üksainus iseseisev dokument: iga PDF-i lehekülg muutub paigutatud plokiks, mille taustal on lehekülje pilt ja peal läbipaistev tekstikiht. Saate seda eelvaadata, alla laadida või kopeerida ühe klõpsuga.
Kuidas tööriist töötab?
Kogu teisendamine toimub teie brauseris, tänu renderdusmootorile pdf.js (sama, mida kasutab Firefox). Teie faili ei saadeta kunagi serverisse: see on otsustav eelis konfidentsiaalsete, lepinguliste või regulatiivsete dokumentide puhul.
Iga lehekülg renderdatakse kõrglahutusega pildiks (teie valite kvaliteedi), seejärel lisatakse nähtamatu tekstikiht, et võimaldada valimist ja otsimist. Saate selle kihi välja lülitada, kui soovite ainult visuaalset renderdust.
Levinud kasutusjuhud
- Integreerige PDF veebilehele, säilitades samal ajal valitava teksti.
- Arhiveerige või jagage dokumenti vaadatavas vormingus ilma PDF-lugejata.
- Eraldage ja kopeerige PDF-i tekst lehekülje kaupa.
- Vaadake kiiresti PDF-i sisu eelvaadet ilma spetsiaalse tarkvarata.
Millist täpsust oodata?
Visuaalne renderdus on väga täpne, sest iga lehekülg on PDF-mootori enda loodud pilt: fondid, paigutus, värvid ja graafika ilmuvad nagu originaalis.
Seevastu ei ole tegemist „semantilise" taasredigeeritava HTML-iga: vektorgraafika renderdatakse pildiks ja tekstikiht teenib eelkõige valimist, selle paigutus on ligikaudne. Skannitud PDF-i (pilt ilma tekstita) puhul ei saa ühtegi tekstikihti luua ilma optilise tuvastuseta (OCR).
Korduma kippuvad küsimused
Kas minu fail saadetakse kuhugi?
Ei. Teisendamine toimub täielikult teie brauseris; PDF ei lahku kunagi teie seadmest ega edastata ühtegi serverisse.
Kas HTML-i tekst on valitav?
Jah, kui PDF sisaldab tegelikku teksti. Iga lehekülje pildi peale lisatakse läbipaistev tekstikiht, et võimaldada valimist, kopeerimist ja otsimist.
Miks tundub tekst valimisel veidi nihkes?
Nähtav renderdus pärineb lehekülje pildist; tekstikiht on paigutatud ligikaudselt. Võimalik nihe mõjutab ainult valikuala, mitte dokumendi välimust.
Kas skannitud PDF-id töötavad?
Iga lehekülje pilt taasesitatakse korralikult, kuid ühtegi teksti ei saa valida: skannitud PDF ei sisalda teksti, ainult pilti. Vajalik oleks optiline tuvastus (OCR).
Kas mitmeleheküljelisi dokumente toetatakse?
Jah. Kõik leheküljed teisendatakse ja koondatakse ühte HTML-faili originaaldokumendi järjekorras.
Päringunäide
curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
-F "file=@/path/to/file"
Sisendskeem
| Väli | Tüüp | Kohustuslik | Vaikimisi |
|---|---|---|---|
file |
file | – |
see tööriist ootab faili - kasuta Content-Type multipart/form-data application/json asemel
Lõpp-punktid
GET https://cdrn.fr/api/v1/tools- loetleb kõik saadaolevad tööriistadGET https://cdrn.fr/api/v1/tools/pdf-to-html-converter- toob selle tööriista skeemiPOST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute- täidab selle tööriista JSON-payloadiga