Převod PDF do HTML
- Dashboard
- Dokumentace
- API
Přetáhněte sem PDF nebo klikněte pro výběr
Váš soubor nikdy neopustí váš prohlížeč.
Náhled
K čemu slouží převod PDF do HTML?
Tento nástroj přemění soubor PDF na samostatnou stránku HTML, která věrně reprodukuje vzhled originálu, stránku po stránce, a přitom zachovává text, který lze označit a kopírovat.
Vytvořený HTML je jediný a samostatný dokument: každá stránka PDF se stává umístěným blokem, s obrázkem stránky na pozadí a průhlednou vrstvou textu nad ním. Můžete jej zobrazit v náhledu, stáhnout nebo zkopírovat jediným kliknutím.
Jak nástroj funguje?
Celý převod probíhá ve vašem prohlížeči, díky vykreslovacímu jádru pdf.js (stejnému jako ve Firefoxu). Váš soubor není nikdy odeslán na server: to je rozhodující výhoda pro důvěrné, smluvní nebo regulační dokumenty.
Každá stránka je vykreslena jako obrázek ve vysokém rozlišení (kvalitu si volíte vy) a poté je nad ni umístěna neviditelná vrstva textu, která umožňuje označování a vyhledávání. Tuto vrstvu můžete vypnout, pokud chcete pouze vizuální zobrazení.
Běžné případy použití
- Vložit PDF do webové stránky a zároveň zachovat text, který lze označit.
- Archivovat nebo sdílet dokument ve formě, kterou lze prohlížet bez čtečky PDF.
- Vyjmout a zkopírovat text z PDF stránku po stránce.
- Rychle zobrazit obsah PDF bez specializovaného softwaru.
Jakou věrnost očekávat?
Vizuální zobrazení je velmi věrné, protože každá stránka je obrázek vytvořený samotným jádrem PDF: písma, rozvržení, barvy a grafika vypadají jako v originálu.
Nejde však o „sémantický" HTML, který by bylo možné znovu upravovat: vektorová grafika je vykreslena jako obrázek a vrstva textu slouží především k označování, přičemž její umístění je přibližné. U skenovaného PDF (obrázek bez textu) nelze vygenerovat žádnou vrstvu textu bez optického rozpoznávání znaků (OCR).
Časté dotazy
Je můj soubor někam odesílán?
Ne. Převod probíhá zcela ve vašem prohlížeči; PDF nikdy neopustí vaše zařízení a není přenášen na žádný server.
Lze text v HTML označit?
Ano, pokud PDF obsahuje skutečný text. Nad obrázek každé stránky je umístěna průhledná vrstva textu, která umožňuje označování, kopírování a vyhledávání.
Proč se text při označování zdá mírně posunutý?
Viditelné zobrazení pochází z obrázku stránky; vrstva textu je umístěna přibližně. Případný posun ovlivňuje pouze oblast výběru, nikoli vzhled dokumentu.
Fungují skenované PDF?
Obrázek každé stránky bude věrně reprodukován, ale žádný text nebude možné označit: skenované PDF neobsahuje text, pouze obrázek. Bylo by nutné optické rozpoznávání znaků (OCR).
Jsou podporovány vícestránkové dokumenty?
Ano. Všechny stránky jsou převedeny a sloučeny do jediného souboru HTML v pořadí původního dokumentu.
Ukázka požadavku
curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
-F "file=@/path/to/file"
Vstupní schéma
| Pole | Typ | Povinné | Výchozí |
|---|---|---|---|
file |
file | – |
tento nástroj očekává soubor - použijte Content-Type multipart/form-data místo application/json
Koncové body
GET https://cdrn.fr/api/v1/tools- vypíše všechny dostupné nástrojeGET https://cdrn.fr/api/v1/tools/pdf-to-html-converter- získá schéma tohoto nástrojePOST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute- spustí tento nástroj s JSON payloadem