Konwertuj plik PDF na HTML

konwertuje plik PDF na samodzielną stronę HTML z warstwą zaznaczalnego tekstu, bez wysyłania żadnego pliku; konwersja odbywa się w całości w Twojej przeglądarce

Przeciągnij tutaj plik PDF lub kliknij, aby go wybrać

Twój plik nigdy nie opuszcza przeglądarki.

Jakość odwzorowania

Do czego służy konwersja PDF na HTML?

To narzędzie przekształca plik PDF w samodzielną stronę HTML, która wiernie odtwarza wygląd oryginału, strona po stronie, zachowując jednocześnie tekst, który można zaznaczać i kopiować.

Wygenerowany kod HTML to pojedynczy, samowystarczalny dokument: każda strona PDF staje się pozycjonowanym blokiem, z obrazem strony w tle i przezroczystą warstwą tekstu na wierzchu. Możesz go wyświetlić w podglądzie, pobrać lub skopiować jednym kliknięciem.

Jak działa narzędzie?

Cała konwersja przebiega w Twojej przeglądarce, dzięki silnikowi renderującemu pdf.js (temu samemu co w Firefoksie). Twój plik nigdy nie jest wysyłany na serwer: to decydująca zaleta w przypadku dokumentów poufnych, umownych lub regulacyjnych.

Każda strona jest renderowana jako obraz w wysokiej rozdzielczości (sam wybierasz jakość), a następnie nakładana jest niewidoczna warstwa tekstu, aby umożliwić zaznaczanie i wyszukiwanie. Możesz wyłączyć tę warstwę, jeśli chcesz uzyskać wyłącznie odwzorowanie wizualne.

Typowe zastosowania

  • Osadzenie pliku PDF na stronie internetowej z zachowaniem zaznaczalnego tekstu.
  • Archiwizacja lub udostępnianie dokumentu w formie możliwej do przeglądania bez czytnika PDF.
  • Wyodrębnianie i kopiowanie tekstu z pliku PDF strona po stronie.
  • Szybki podgląd zawartości pliku PDF bez dedykowanego oprogramowania.

Jakiej wierności można oczekiwać?

Odwzorowanie wizualne jest bardzo wierne, ponieważ każda strona to obraz wygenerowany przez sam silnik PDF: czcionki, układ, kolory i grafiki wyglądają tak jak w oryginale.

Nie jest to jednak « semantyczny », edytowalny kod HTML: grafiki wektorowe są renderowane jako obraz, a warstwa tekstu służy przede wszystkim do zaznaczania, przy czym jej pozycjonowanie jest przybliżone. W przypadku zeskanowanego pliku PDF (obraz bez tekstu) nie można wygenerować żadnej warstwy tekstu bez optycznego rozpoznawania znaków (OCR).

Najczęściej zadawane pytania

Czy mój plik jest gdzieś wysyłany?

Nie. Konwersja jest w całości wykonywana w Twojej przeglądarce; plik PDF nigdy nie opuszcza Twojego urządzenia i nie jest przesyłany na żaden serwer.

Czy tekst w pliku HTML można zaznaczać?

Tak, o ile plik PDF zawiera prawdziwy tekst. Przezroczysta warstwa tekstu jest nakładana na obraz każdej strony, aby umożliwić zaznaczanie, kopiowanie i wyszukiwanie.

Dlaczego podczas zaznaczania tekst wydaje się lekko przesunięty?

Widoczne odwzorowanie pochodzi z obrazu strony; warstwa tekstu jest pozycjonowana w przybliżeniu. Ewentualne przesunięcie dotyczy wyłącznie obszaru zaznaczenia, a nie wyglądu dokumentu.

Czy zeskanowane pliki PDF działają?

Obraz każdej strony zostanie poprawnie odtworzony, ale nie będzie można zaznaczyć żadnego tekstu: zeskanowany plik PDF nie zawiera tekstu, a jedynie obraz. Konieczne byłoby optyczne rozpoznawanie znaków (OCR).

Czy dokumenty wielostronicowe są obsługiwane?

Tak. Wszystkie strony są konwertowane i grupowane w jednym pliku HTML, w kolejności oryginalnego dokumentu.

Przykładowe zapytanie

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Schemat wejściowy

Pole Typ Wymagane Domyślnie
file file

to narzędzie wymaga pliku - użyj Content-Type multipart/form-data zamiast application/json

Punkty końcowe

  • GET https://cdrn.fr/api/v1/tools - lista wszystkich dostępnych narzędzi
  • GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - zwraca schemat dla tego narzędzia
  • POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - uruchamia to narzędzie z payloadem JSON