Převod PDF do HTML

Dashboard
Dokumentace
API

převede PDF na samostatnou stránku HTML s vrstvou textu, který lze označit, bez jakéhokoli odesílání souboru; převod probíhá zcela ve vašem prohlížeči

Přetáhněte sem PDF nebo klikněte pro výběr

Váš soubor nikdy neopustí váš prohlížeč.

Zahrnout text, který lze označit

Kvalita zobrazení

Náhled

K čemu slouží převod PDF do HTML?

Tento nástroj přemění soubor PDF na samostatnou stránku HTML, která věrně reprodukuje vzhled originálu, stránku po stránce, a přitom zachovává text, který lze označit a kopírovat.

Vytvořený HTML je jediný a samostatný dokument: každá stránka PDF se stává umístěným blokem, s obrázkem stránky na pozadí a průhlednou vrstvou textu nad ním. Můžete jej zobrazit v náhledu, stáhnout nebo zkopírovat jediným kliknutím.

Jak nástroj funguje?

Celý převod probíhá ve vašem prohlížeči, díky vykreslovacímu jádru pdf.js (stejnému jako ve Firefoxu). Váš soubor není nikdy odeslán na server: to je rozhodující výhoda pro důvěrné, smluvní nebo regulační dokumenty.

Každá stránka je vykreslena jako obrázek ve vysokém rozlišení (kvalitu si volíte vy) a poté je nad ni umístěna neviditelná vrstva textu, která umožňuje označování a vyhledávání. Tuto vrstvu můžete vypnout, pokud chcete pouze vizuální zobrazení.

Běžné případy použití

Vložit PDF do webové stránky a zároveň zachovat text, který lze označit.
Archivovat nebo sdílet dokument ve formě, kterou lze prohlížet bez čtečky PDF.
Vyjmout a zkopírovat text z PDF stránku po stránce.
Rychle zobrazit obsah PDF bez specializovaného softwaru.

Jakou věrnost očekávat?

Vizuální zobrazení je velmi věrné, protože každá stránka je obrázek vytvořený samotným jádrem PDF: písma, rozvržení, barvy a grafika vypadají jako v originálu.

Nejde však o „sémantický" HTML, který by bylo možné znovu upravovat: vektorová grafika je vykreslena jako obrázek a vrstva textu slouží především k označování, přičemž její umístění je přibližné. U skenovaného PDF (obrázek bez textu) nelze vygenerovat žádnou vrstvu textu bez optického rozpoznávání znaků (OCR).

Časté dotazy

Je můj soubor někam odesílán?

Ne. Převod probíhá zcela ve vašem prohlížeči; PDF nikdy neopustí vaše zařízení a není přenášen na žádný server.

Lze text v HTML označit?

Ano, pokud PDF obsahuje skutečný text. Nad obrázek každé stránky je umístěna průhledná vrstva textu, která umožňuje označování, kopírování a vyhledávání.

Proč se text při označování zdá mírně posunutý?

Viditelné zobrazení pochází z obrázku stránky; vrstva textu je umístěna přibližně. Případný posun ovlivňuje pouze oblast výběru, nikoli vzhled dokumentu.

Fungují skenované PDF?

Obrázek každé stránky bude věrně reprodukován, ale žádný text nebude možné označit: skenované PDF neobsahuje text, pouze obrázek. Bylo by nutné optické rozpoznávání znaků (OCR).

Jsou podporovány vícestránkové dokumenty?

Ano. Všechny stránky jsou převedeny a sloučeny do jediného souboru HTML v pořadí původního dokumentu.

Ukázka požadavku

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Vstupní schéma

Pole	Typ	Povinné	Výchozí
`file`	file		–

tento nástroj očekává soubor - použijte Content-Type multipart/form-data místo application/json

Koncové body

GET https://cdrn.fr/api/v1/tools - vypíše všechny dostupné nástroje
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - získá schéma tohoto nástroje
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - spustí tento nástroj s JSON payloadem