Pretvori PDF v HTML
- Nadzorna plošča
- Dokumentacija
- API
Sem povlecite PDF ali kliknite za izbiro
Vaša datoteka nikoli ne zapusti vašega brskalnika.
Predogled
Čemu služi pretvorba PDF v HTML?
To orodje pretvori datoteko PDF v samostojno stran HTML, ki zvesto reproducira videz izvirnika, stran za stranjo, ob tem pa ohrani besedilo, ki ga je mogoče izbrati in kopirati.
Ustvarjeni HTML je en sam in samostojen dokument: vsaka stran PDF postane umeščen blok, s sliko strani v ozadju in prosojno plastjo besedila nad njo. Lahko ga predogledate, prenesete ali kopirate z enim klikom.
Kako orodje deluje?
Celotna pretvorba poteka v vašem brskalniku s pomočjo upodabljalnika pdf.js (istega, kot ga uporablja Firefox). Vaša datoteka se nikoli ne pošlje na strežnik: to je odločilna prednost za zaupne, pogodbene ali regulativne dokumente.
Vsaka stran se upodobi kot slika visoke ločljivosti (kakovost izberete sami), nato pa se nanjo prekrije nevidna plast besedila, ki omogoča izbiranje in iskanje. To plast lahko izklopite, če želite le vizualni prikaz.
Pogosti primeri uporabe
- Vključitev datoteke PDF v spletno stran ob ohranitvi besedila, ki ga je mogoče izbrati.
- Arhiviranje ali deljenje dokumenta v obliki, ki jo je mogoče pregledovati brez bralnika PDF.
- Izvleček in kopiranje besedila iz datoteke PDF stran za stranjo.
- Hiter predogled vsebine datoteke PDF brez namenske programske opreme.
Kakšno zvestobo lahko pričakujete?
Vizualni prikaz je zelo zvest, saj je vsaka stran slika, ki jo ustvari sam upodabljalnik PDF: pisave, postavitev, barve in grafike se prikažejo tako kot v izvirniku.
Po drugi strani pa to ni „semantični" HTML, ki bi ga bilo mogoče znova urejati: vektorske grafike se upodobijo kot slika, plast besedila pa služi predvsem izbiranju, njena umestitev pa je približna. Pri skeniranem PDF (slika brez besedila) plasti besedila ni mogoče ustvariti brez optičnega prepoznavanja znakov (OCR).
Pogosta vprašanja
Ali se moja datoteka kam pošlje?
Ne. Pretvorba se v celoti izvede v vašem brskalniku; PDF nikoli ne zapusti vaše naprave in se ne prenese na noben strežnik.
Ali je besedilo v HTML mogoče izbrati?
Da, dokler PDF vsebuje pravo besedilo. Prosojna plast besedila se prekrije na sliko vsake strani, da omogoči izbiranje, kopiranje in iskanje.
Zakaj se besedilo pri izbiranju zdi rahlo zamaknjeno?
Vidni prikaz izhaja iz slike strani; plast besedila je umeščena približno. Morebitni zamik vpliva le na območje izbire, ne na videz dokumenta.
Ali skenirani PDF-ji delujejo?
Slika vsake strani bo sicer zvesto reproducirana, vendar ne bo mogoče izbrati nobenega besedila: skeniran PDF ne vsebuje besedila, le sliko. Potrebno bi bilo optično prepoznavanje znakov (OCR).
Ali so podprti večstranski dokumenti?
Da. Vse strani se pretvorijo in združijo v eno samo datoteko HTML, v vrstnem redu izvirnega dokumenta.
Primer zahteve
curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
-F "file=@/path/to/file"
Vhodna shema
| Polje | Tip | Obvezno | Privzeto |
|---|---|---|---|
file |
file | – |
to orodje pričakuje datoteko - uporabite Content-Type multipart/form-data namesto application/json
Končne točke
GET https://cdrn.fr/api/v1/tools- izpiše vsa razpoložljiva orodjaGET https://cdrn.fr/api/v1/tools/pdf-to-html-converter- pridobi shemo tega orodjaPOST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute- izvede to orodje s JSON payloadom