Previesť PDF na HTML
- Dashboard
- Dokumentácia
- API
Sem presuňte PDF alebo kliknite a vyberte ho
Váš súbor nikdy neopustí váš prehliadač.
Náhľad
Na čo slúži prevod z PDF do HTML?
Tento nástroj premení súbor PDF na samostatnú HTML stránku, ktorá verne reprodukuje vzhľad originálu, stránku po stránke, pričom zachováva vybrateľný a kopírovateľný text.
Vytvorené HTML je jediný a samostatný dokument: každá stránka PDF sa stane umiestneným blokom, s obrázkom stránky na pozadí a priehľadnou textovou vrstvou nad ním. Môžete ho zobraziť, stiahnuť alebo skopírovať jedným kliknutím.
Ako nástroj funguje?
Celý prevod prebieha vo vašom prehliadači vďaka vykresľovaciemu jadru pdf.js (rovnakému, aké používa Firefox). Váš súbor sa nikdy neodosiela na server: je to rozhodujúca výhoda pre dôverné, zmluvné alebo regulačné dokumenty.
Každá stránka sa vykreslí ako obrázok vo vysokom rozlíšení (kvalitu si vyberáte vy), potom sa naň prekryje neviditeľná textová vrstva, ktorá umožňuje výber a vyhľadávanie. Túto vrstvu môžete vypnúť, ak chcete iba vizuálne zobrazenie.
Bežné prípady použitia
- Vloženie PDF do webovej stránky pri zachovaní vybrateľného textu.
- Archivácia alebo zdieľanie dokumentu vo forme, ktorú možno čítať bez čítačky PDF.
- Extrahovanie a kopírovanie textu z PDF stránku po stránke.
- Rýchle zobrazenie obsahu PDF bez špecializovaného softvéru.
Akú vernosť možno očakávať?
Vizuálne zobrazenie je veľmi verné, pretože každá stránka je obrázok vytvorený samotným jadrom PDF: písma, rozloženie, farby a grafika sa zobrazujú tak ako v origináli.
Naopak nejde o „sémantické" HTML, ktoré možno znovu upravovať: vektorová grafika sa vykresľuje ako obrázok a textová vrstva slúži predovšetkým na výber, pričom jej umiestnenie je približné. Pri skenovanom PDF (obrázok bez textu) nemožno vygenerovať žiadnu textovú vrstvu bez optického rozpoznávania znakov (OCR).
Časté otázky
Odosiela sa môj súbor niekam?
Nie. Prevod sa celý uskutočňuje vo vašom prehliadači; PDF nikdy neopustí vaše zariadenie a neprenáša sa na žiadny server.
Je text v HTML vybrateľný?
Áno, pokiaľ PDF obsahuje skutočný text. Priehľadná textová vrstva sa prekryje na obrázok každej stránky, aby umožnila výber, kopírovanie a vyhľadávanie.
Prečo sa text pri výbere javí mierne posunutý?
Viditeľné zobrazenie pochádza z obrázka stránky; textová vrstva je umiestnená približne. Prípadný posun ovplyvňuje iba oblasť výberu, nie vzhľad dokumentu.
Fungujú skenované PDF?
Obrázok každej stránky sa síce verne reprodukuje, ale nebude možné vybrať žiadny text: skenované PDF neobsahuje text, iba obrázok. Bolo by potrebné optické rozpoznávanie znakov (OCR).
Sú podporované viacstranové dokumenty?
Áno. Všetky stránky sa prevedú a zoskupia do jediného súboru HTML, v poradí pôvodného dokumentu.
Ukážka požiadavky
curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
-F "file=@/path/to/file"
Vstupná schéma
| Pole | Typ | Povinné | Predvolené |
|---|---|---|---|
file |
file | – |
tento nástroj očakáva súbor - použite Content-Type multipart/form-data namiesto application/json
Koncové body
GET https://cdrn.fr/api/v1/tools- vypíše všetky dostupné nástrojeGET https://cdrn.fr/api/v1/tools/pdf-to-html-converter- získa schému tohto nástrojaPOST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute- spustí tento nástroj s JSON payloadom