Ein PDF in HTML umwandeln

Dashboard
Dokumentation
API

wandelt ein PDF in eine eigenständige HTML-Seite mit auswählbarer Textebene um, ohne eine Datei hochzuladen; die Umwandlung erfolgt vollständig in Ihrem Browser

Ziehen Sie ein PDF hierher oder klicken Sie, um eines auszuwählen

Ihre Datei verlässt niemals Ihren Browser.

Auswählbaren Text einschließen

Renderqualität

Vorschau

Wozu dient die Umwandlung von PDF in HTML?

Dieses Werkzeug wandelt eine PDF-Datei in eine eigenständige HTML-Seite um, die das Aussehen des Originals Seite für Seite originalgetreu wiedergibt und dabei den Text auswählbar und kopierbar hält.

Das erzeugte HTML ist ein einziges, in sich geschlossenes Dokument: Jede Seite des PDFs wird zu einem positionierten Block, mit dem Seitenbild im Hintergrund und einer transparenten Textebene darüber. Sie können es in der Vorschau anzeigen, herunterladen oder mit einem Klick kopieren.

Wie funktioniert das Werkzeug?

Die gesamte Umwandlung findet in Ihrem Browser statt, dank der Rendering-Engine pdf.js (derselben, die Firefox verwendet). Ihre Datei wird niemals an einen Server gesendet: Das ist ein entscheidender Vorteil für vertrauliche, vertragliche oder regulatorische Dokumente.

Jede Seite wird als hochauflösendes Bild gerendert (Sie wählen die Qualität), dann wird eine unsichtbare Textebene darübergelegt, um Auswahl und Suche zu ermöglichen. Sie können diese Ebene deaktivieren, wenn Sie nur eine visuelle Darstellung wünschen.

Häufige Anwendungsfälle

Ein PDF in eine Webseite einbetten und dabei den Text auswählbar halten.
Ein Dokument in einer ohne PDF-Reader lesbaren Form archivieren oder teilen.
Den Text eines PDFs Seite für Seite extrahieren und kopieren.
Den Inhalt eines PDFs schnell ohne spezielle Software in der Vorschau ansehen.

Welche Wiedergabetreue ist zu erwarten?

Die visuelle Darstellung ist sehr originalgetreu, denn jede Seite ist ein Bild, das von der PDF-Engine selbst erzeugt wird: Schriften, Layout, Farben und Grafiken erscheinen wie im Original.

Es handelt sich jedoch nicht um ein "semantisches", erneut bearbeitbares HTML: Vektorgrafiken werden als Bild gerendert, und die Textebene dient vor allem der Auswahl, wobei ihre Positionierung näherungsweise ist. Bei einem gescannten PDF (Bild ohne Text) kann ohne optische Zeichenerkennung (OCR) keine Textebene erzeugt werden.

Häufig gestellte Fragen

Wird meine Datei irgendwohin gesendet?

Nein. Die Umwandlung erfolgt vollständig in Ihrem Browser; das PDF verlässt niemals Ihr Gerät und wird an keinen Server übertragen.

Ist der Text im HTML auswählbar?

Ja, sofern das PDF echten Text enthält. Eine transparente Textebene wird über das Bild jeder Seite gelegt, um Auswahl, Kopieren und Suche zu ermöglichen.

Warum wirkt der Text bei der Auswahl leicht verschoben?

Die sichtbare Darstellung stammt aus dem Seitenbild; die Textebene ist näherungsweise positioniert. Eine eventuelle Verschiebung betrifft nur den Auswahlbereich, nicht das Aussehen des Dokuments.

Funktionieren gescannte PDFs?

Das Bild jeder Seite wird korrekt wiedergegeben, aber es kann kein Text ausgewählt werden: Ein gescanntes PDF enthält keinen Text, nur ein Bild. Eine optische Zeichenerkennung (OCR) wäre erforderlich.

Werden mehrseitige Dokumente unterstützt?

Ja. Alle Seiten werden umgewandelt und in einer einzigen HTML-Datei zusammengefasst, in der Reihenfolge des Originaldokuments.

Beispielanfrage

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Eingabeschema

Feld	Typ	Erforderlich	Standard
`file`	file		–

dieses Tool erwartet eine Datei - verwenden Sie Content-Type multipart/form-data anstelle von application/json

Endpunkte

GET https://cdrn.fr/api/v1/tools - listet alle verfügbaren Tools auf
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - liefert das Schema dieses Tools
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - führt dieses Tool mit einem JSON-Payload aus