Pretvorba PDF-a u HTML

Nadzorna ploča
Dokumentacija
API

pretvara PDF u samostalnu HTML stranicu sa slojem teksta koji se može označiti, bez ikakvog slanja datoteke; pretvorba se u cijelosti odvija u vašem pregledniku

Povucite PDF ovamo ili kliknite za odabir

Vaša datoteka nikada ne napušta vaš preglednik.

Uključi tekst koji se može označiti

Kvaliteta prikaza

Pregled

Čemu služi pretvorba PDF-a u HTML?

Ovaj alat pretvara PDF datoteku u samostalnu HTML stranicu koja vjerno reproducira izgled izvornika, stranicu po stranicu, uz zadržavanje teksta koji se može označiti i kopirati.

Dobiveni HTML je jedinstven i samostalan dokument: svaka stranica PDF-a postaje pozicionirani blok, sa slikom stranice u pozadini i prozirnim slojem teksta povrh nje. Možete ga pregledati, preuzeti ili kopirati jednim klikom.

Kako alat radi?

Cijela pretvorba odvija se u vašem pregledniku, zahvaljujući mehanizmu za prikaz pdf.js (istom kao u Firefoxu). Vaša datoteka se nikada ne šalje na poslužitelj: to je presudna prednost za povjerljive, ugovorne ili regulatorne dokumente.

Svaka se stranica prikazuje kao slika visoke razlučivosti (vi birate kvalitetu), a zatim se preko nje nalazi nevidljivi sloj teksta koji omogućuje označavanje i pretraživanje. Taj sloj možete onemogućiti ako želite samo vizualni prikaz.

Uobičajeni načini upotrebe

Ugraditi PDF u web stranicu uz zadržavanje teksta koji se može označiti.
Arhivirati ili dijeliti dokument u obliku koji se može pregledati bez PDF čitača.
Izdvojiti i kopirati tekst iz PDF-a stranicu po stranicu.
Brzo pregledati sadržaj PDF-a bez posebnog softvera.

Kakvu vjernost očekivati?

Vizualni prikaz vrlo je vjeran, jer je svaka stranica slika koju proizvodi sam PDF mehanizam: fontovi, raspored, boje i grafike izgledaju kao u izvorniku.

Međutim, to nije „semantički" HTML koji se može ponovno uređivati: vektorske grafike prikazuju se kao slike, a sloj teksta služi prije svega za označavanje, pri čemu je njegovo pozicioniranje približno. Za skenirani PDF (slika bez teksta) nije moguće generirati nikakav sloj teksta bez optičkog prepoznavanja znakova (OCR).

Česta pitanja

Šalje li se moja datoteka negdje?

Ne. Pretvorba se u cijelosti odvija u vašem pregledniku; PDF nikada ne napušta vaš uređaj i ne prenosi se ni na jedan poslužitelj.

Može li se tekst u HTML-u označiti?

Da, sve dok PDF sadrži pravi tekst. Prozirni sloj teksta postavlja se preko slike svake stranice kako bi se omogućilo označavanje, kopiranje i pretraživanje.

Zašto se tekst pri označavanju čini blago pomaknutim?

Vidljivi prikaz dolazi iz slike stranice; sloj teksta postavljen je približno. Mogući pomak utječe samo na područje označavanja, a ne na izgled dokumenta.

Rade li skenirani PDF-ovi?

Slika svake stranice bit će vjerno reproducirana, ali se nikakav tekst neće moći označiti: skenirani PDF ne sadrži tekst, samo sliku. Bilo bi potrebno optičko prepoznavanje znakova (OCR).

Podržavaju li se dokumenti s više stranica?

Da. Sve se stranice pretvaraju i objedinjuju u jednu HTML datoteku, redoslijedom izvornog dokumenta.

Primjer zahtjeva

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Ulazna shema

Polje	Tip	Obavezno	Zadano
`file`	file		–

ovaj alat očekuje datoteku - koristite Content-Type multipart/form-data umjesto application/json

Krajnje točke

GET https://cdrn.fr/api/v1/tools - ispisuje sve dostupne alate
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - dohvaća shemu ovog alata
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - izvršava ovaj alat s JSON payloadom