Konwertuj plik PDF na HTML
- Panel
- Dokumentacja
- API
Przeciągnij tutaj plik PDF lub kliknij, aby go wybrać
Twój plik nigdy nie opuszcza przeglądarki.
Podgląd
Do czego służy konwersja PDF na HTML?
To narzędzie przekształca plik PDF w samodzielną stronę HTML, która wiernie odtwarza wygląd oryginału, strona po stronie, zachowując jednocześnie tekst, który można zaznaczać i kopiować.
Wygenerowany kod HTML to pojedynczy, samowystarczalny dokument: każda strona PDF staje się pozycjonowanym blokiem, z obrazem strony w tle i przezroczystą warstwą tekstu na wierzchu. Możesz go wyświetlić w podglądzie, pobrać lub skopiować jednym kliknięciem.
Jak działa narzędzie?
Cała konwersja przebiega w Twojej przeglądarce, dzięki silnikowi renderującemu pdf.js (temu samemu co w Firefoksie). Twój plik nigdy nie jest wysyłany na serwer: to decydująca zaleta w przypadku dokumentów poufnych, umownych lub regulacyjnych.
Każda strona jest renderowana jako obraz w wysokiej rozdzielczości (sam wybierasz jakość), a następnie nakładana jest niewidoczna warstwa tekstu, aby umożliwić zaznaczanie i wyszukiwanie. Możesz wyłączyć tę warstwę, jeśli chcesz uzyskać wyłącznie odwzorowanie wizualne.
Typowe zastosowania
- Osadzenie pliku PDF na stronie internetowej z zachowaniem zaznaczalnego tekstu.
- Archiwizacja lub udostępnianie dokumentu w formie możliwej do przeglądania bez czytnika PDF.
- Wyodrębnianie i kopiowanie tekstu z pliku PDF strona po stronie.
- Szybki podgląd zawartości pliku PDF bez dedykowanego oprogramowania.
Jakiej wierności można oczekiwać?
Odwzorowanie wizualne jest bardzo wierne, ponieważ każda strona to obraz wygenerowany przez sam silnik PDF: czcionki, układ, kolory i grafiki wyglądają tak jak w oryginale.
Nie jest to jednak « semantyczny », edytowalny kod HTML: grafiki wektorowe są renderowane jako obraz, a warstwa tekstu służy przede wszystkim do zaznaczania, przy czym jej pozycjonowanie jest przybliżone. W przypadku zeskanowanego pliku PDF (obraz bez tekstu) nie można wygenerować żadnej warstwy tekstu bez optycznego rozpoznawania znaków (OCR).
Najczęściej zadawane pytania
Czy mój plik jest gdzieś wysyłany?
Nie. Konwersja jest w całości wykonywana w Twojej przeglądarce; plik PDF nigdy nie opuszcza Twojego urządzenia i nie jest przesyłany na żaden serwer.
Czy tekst w pliku HTML można zaznaczać?
Tak, o ile plik PDF zawiera prawdziwy tekst. Przezroczysta warstwa tekstu jest nakładana na obraz każdej strony, aby umożliwić zaznaczanie, kopiowanie i wyszukiwanie.
Dlaczego podczas zaznaczania tekst wydaje się lekko przesunięty?
Widoczne odwzorowanie pochodzi z obrazu strony; warstwa tekstu jest pozycjonowana w przybliżeniu. Ewentualne przesunięcie dotyczy wyłącznie obszaru zaznaczenia, a nie wyglądu dokumentu.
Czy zeskanowane pliki PDF działają?
Obraz każdej strony zostanie poprawnie odtworzony, ale nie będzie można zaznaczyć żadnego tekstu: zeskanowany plik PDF nie zawiera tekstu, a jedynie obraz. Konieczne byłoby optyczne rozpoznawanie znaków (OCR).
Czy dokumenty wielostronicowe są obsługiwane?
Tak. Wszystkie strony są konwertowane i grupowane w jednym pliku HTML, w kolejności oryginalnego dokumentu.
Przykładowe zapytanie
curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
-F "file=@/path/to/file"
Schemat wejściowy
| Pole | Typ | Wymagane | Domyślnie |
|---|---|---|---|
file |
file | – |
to narzędzie wymaga pliku - użyj Content-Type multipart/form-data zamiast application/json
Punkty końcowe
GET https://cdrn.fr/api/v1/tools- lista wszystkich dostępnych narzędziGET https://cdrn.fr/api/v1/tools/pdf-to-html-converter- zwraca schemat dla tego narzędziaPOST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute- uruchamia to narzędzie z payloadem JSON