Pretvorba PDF-a u HTML
- Nadzorna ploča
- Dokumentacija
- API
Povucite PDF ovamo ili kliknite za odabir
Vaša datoteka nikada ne napušta vaš preglednik.
Pregled
Čemu služi pretvorba PDF-a u HTML?
Ovaj alat pretvara PDF datoteku u samostalnu HTML stranicu koja vjerno reproducira izgled izvornika, stranicu po stranicu, uz zadržavanje teksta koji se može označiti i kopirati.
Dobiveni HTML je jedinstven i samostalan dokument: svaka stranica PDF-a postaje pozicionirani blok, sa slikom stranice u pozadini i prozirnim slojem teksta povrh nje. Možete ga pregledati, preuzeti ili kopirati jednim klikom.
Kako alat radi?
Cijela pretvorba odvija se u vašem pregledniku, zahvaljujući mehanizmu za prikaz pdf.js (istom kao u Firefoxu). Vaša datoteka se nikada ne šalje na poslužitelj: to je presudna prednost za povjerljive, ugovorne ili regulatorne dokumente.
Svaka se stranica prikazuje kao slika visoke razlučivosti (vi birate kvalitetu), a zatim se preko nje nalazi nevidljivi sloj teksta koji omogućuje označavanje i pretraživanje. Taj sloj možete onemogućiti ako želite samo vizualni prikaz.
Uobičajeni načini upotrebe
- Ugraditi PDF u web stranicu uz zadržavanje teksta koji se može označiti.
- Arhivirati ili dijeliti dokument u obliku koji se može pregledati bez PDF čitača.
- Izdvojiti i kopirati tekst iz PDF-a stranicu po stranicu.
- Brzo pregledati sadržaj PDF-a bez posebnog softvera.
Kakvu vjernost očekivati?
Vizualni prikaz vrlo je vjeran, jer je svaka stranica slika koju proizvodi sam PDF mehanizam: fontovi, raspored, boje i grafike izgledaju kao u izvorniku.
Međutim, to nije „semantički" HTML koji se može ponovno uređivati: vektorske grafike prikazuju se kao slike, a sloj teksta služi prije svega za označavanje, pri čemu je njegovo pozicioniranje približno. Za skenirani PDF (slika bez teksta) nije moguće generirati nikakav sloj teksta bez optičkog prepoznavanja znakova (OCR).
Česta pitanja
Šalje li se moja datoteka negdje?
Ne. Pretvorba se u cijelosti odvija u vašem pregledniku; PDF nikada ne napušta vaš uređaj i ne prenosi se ni na jedan poslužitelj.
Može li se tekst u HTML-u označiti?
Da, sve dok PDF sadrži pravi tekst. Prozirni sloj teksta postavlja se preko slike svake stranice kako bi se omogućilo označavanje, kopiranje i pretraživanje.
Zašto se tekst pri označavanju čini blago pomaknutim?
Vidljivi prikaz dolazi iz slike stranice; sloj teksta postavljen je približno. Mogući pomak utječe samo na područje označavanja, a ne na izgled dokumenta.
Rade li skenirani PDF-ovi?
Slika svake stranice bit će vjerno reproducirana, ali se nikakav tekst neće moći označiti: skenirani PDF ne sadrži tekst, samo sliku. Bilo bi potrebno optičko prepoznavanje znakova (OCR).
Podržavaju li se dokumenti s više stranica?
Da. Sve se stranice pretvaraju i objedinjuju u jednu HTML datoteku, redoslijedom izvornog dokumenta.
Primjer zahtjeva
curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
-F "file=@/path/to/file"
Ulazna shema
| Polje | Tip | Obavezno | Zadano |
|---|---|---|---|
file |
file | – |
ovaj alat očekuje datoteku - koristite Content-Type multipart/form-data umjesto application/json
Krajnje točke
GET https://cdrn.fr/api/v1/tools- ispisuje sve dostupne alateGET https://cdrn.fr/api/v1/tools/pdf-to-html-converter- dohvaća shemu ovog alataPOST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute- izvršava ovaj alat s JSON payloadom