Previesť PDF na HTML

Dashboard
Dokumentácia
API

prevedie PDF na samostatnú HTML stránku s vrstvou vybrateľného textu, bez akéhokoľvek odosielania súboru; prevod prebieha úplne vo vašom prehliadači

Sem presuňte PDF alebo kliknite a vyberte ho

Váš súbor nikdy neopustí váš prehliadač.

Zahrnúť vybrateľný text

Kvalita zobrazenia

Náhľad

Na čo slúži prevod z PDF do HTML?

Tento nástroj premení súbor PDF na samostatnú HTML stránku, ktorá verne reprodukuje vzhľad originálu, stránku po stránke, pričom zachováva vybrateľný a kopírovateľný text.

Vytvorené HTML je jediný a samostatný dokument: každá stránka PDF sa stane umiestneným blokom, s obrázkom stránky na pozadí a priehľadnou textovou vrstvou nad ním. Môžete ho zobraziť, stiahnuť alebo skopírovať jedným kliknutím.

Ako nástroj funguje?

Celý prevod prebieha vo vašom prehliadači vďaka vykresľovaciemu jadru pdf.js (rovnakému, aké používa Firefox). Váš súbor sa nikdy neodosiela na server: je to rozhodujúca výhoda pre dôverné, zmluvné alebo regulačné dokumenty.

Každá stránka sa vykreslí ako obrázok vo vysokom rozlíšení (kvalitu si vyberáte vy), potom sa naň prekryje neviditeľná textová vrstva, ktorá umožňuje výber a vyhľadávanie. Túto vrstvu môžete vypnúť, ak chcete iba vizuálne zobrazenie.

Bežné prípady použitia

Vloženie PDF do webovej stránky pri zachovaní vybrateľného textu.
Archivácia alebo zdieľanie dokumentu vo forme, ktorú možno čítať bez čítačky PDF.
Extrahovanie a kopírovanie textu z PDF stránku po stránke.
Rýchle zobrazenie obsahu PDF bez špecializovaného softvéru.

Akú vernosť možno očakávať?

Vizuálne zobrazenie je veľmi verné, pretože každá stránka je obrázok vytvorený samotným jadrom PDF: písma, rozloženie, farby a grafika sa zobrazujú tak ako v origináli.

Naopak nejde o „sémantické" HTML, ktoré možno znovu upravovať: vektorová grafika sa vykresľuje ako obrázok a textová vrstva slúži predovšetkým na výber, pričom jej umiestnenie je približné. Pri skenovanom PDF (obrázok bez textu) nemožno vygenerovať žiadnu textovú vrstvu bez optického rozpoznávania znakov (OCR).

Časté otázky

Odosiela sa môj súbor niekam?

Nie. Prevod sa celý uskutočňuje vo vašom prehliadači; PDF nikdy neopustí vaše zariadenie a neprenáša sa na žiadny server.

Je text v HTML vybrateľný?

Áno, pokiaľ PDF obsahuje skutočný text. Priehľadná textová vrstva sa prekryje na obrázok každej stránky, aby umožnila výber, kopírovanie a vyhľadávanie.

Prečo sa text pri výbere javí mierne posunutý?

Viditeľné zobrazenie pochádza z obrázka stránky; textová vrstva je umiestnená približne. Prípadný posun ovplyvňuje iba oblasť výberu, nie vzhľad dokumentu.

Fungujú skenované PDF?

Obrázok každej stránky sa síce verne reprodukuje, ale nebude možné vybrať žiadny text: skenované PDF neobsahuje text, iba obrázok. Bolo by potrebné optické rozpoznávanie znakov (OCR).

Sú podporované viacstranové dokumenty?

Áno. Všetky stránky sa prevedú a zoskupia do jediného súboru HTML, v poradí pôvodného dokumentu.

Ukážka požiadavky

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Vstupná schéma

Pole	Typ	Povinné	Predvolené
`file`	file		–

tento nástroj očakáva súbor - použite Content-Type multipart/form-data namiesto application/json

Koncové body

GET https://cdrn.fr/api/v1/tools - vypíše všetky dostupné nástroje
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - získa schému tohto nástroja
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - spustí tento nástroj s JSON payloadom