Перетворити PDF на HTML

Панель керування
Документація
API

перетворює PDF на самостійну сторінку HTML із шаром тексту, який можна виділяти, без жодного надсилання файлу; перетворення відбувається повністю у вашому браузері

Перетягніть PDF сюди або натисніть, щоб вибрати

Ваш файл ніколи не залишає ваш браузер.

Додати текст, який можна виділяти

Якість відтворення

Перегляд

Для чого потрібне перетворення PDF на HTML?

Цей інструмент перетворює файл PDF на самостійну сторінку HTML, яка точно відтворює вигляд оригіналу, сторінка за сторінкою, водночас зберігаючи текст, який можна виділяти та копіювати.

Створений HTML є єдиним самодостатнім документом: кожна сторінка PDF стає розташованим блоком, із зображенням сторінки на тлі та прозорим шаром тексту над ним. Ви можете переглянути, завантажити або скопіювати його одним кліком.

Як працює інструмент?

Усе перетворення відбувається у вашому браузері завдяки рушію відтворення pdf.js (тому самому, що й у Firefox). Ваш файл ніколи не надсилається на сервер: це вирішальна перевага для конфіденційних, договірних або нормативних документів.

Кожна сторінка відтворюється як зображення високої роздільної здатності (якість ви обираєте самі), після чого зверху накладається невидимий шар тексту, що дає змогу виділяти й шукати. Ви можете вимкнути цей шар, якщо вам потрібне лише візуальне відтворення.

Поширені випадки використання

Вбудовування PDF у вебсторінку зі збереженням тексту, який можна виділяти.
Архівування або поширення документа у формі, придатній для перегляду без читача PDF.
Видобування й копіювання тексту з PDF сторінка за сторінкою.
Швидкий перегляд вмісту PDF без спеціального програмного забезпечення.

На яку точність очікувати?

Візуальне відтворення дуже точне, адже кожна сторінка є зображенням, створеним самим рушієм PDF: шрифти, верстка, кольори та графіка відображаються так само, як в оригіналі.

Натомість це не «семантичний» HTML, який можна повторно редагувати: векторна графіка відтворюється як зображення, а шар тексту слугує насамперед для виділення, причому його розташування є приблизним. Для сканованого PDF (зображення без тексту) жоден шар тексту не може бути створений без оптичного розпізнавання символів (OCR).

Поширені запитання

Чи надсилається мій файл кудись?

Ні. Перетворення повністю виконується у вашому браузері; PDF ніколи не залишає ваш пристрій і не передається на жоден сервер.

Чи можна виділяти текст у HTML?

Так, доки PDF містить справжній текст. Прозорий шар тексту накладається на зображення кожної сторінки, щоб уможливити виділення, копіювання та пошук.

Чому текст під час виділення здається трохи зміщеним?

Видиме відтворення походить із зображення сторінки; шар тексту розташований приблизно. Можливе зміщення впливає лише на зону виділення, а не на вигляд документа.

Чи працюють скановані PDF?

Зображення кожної сторінки буде точно відтворено, але виділити жодного тексту не вдасться: сканований PDF не містить тексту, лише зображення. Знадобилося б оптичне розпізнавання символів (OCR).

Чи підтримуються багатосторінкові документи?

Так. Усі сторінки перетворюються та об'єднуються в один файл HTML у порядку оригінального документа.

Приклад запиту

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Схема вхідних даних

Поле	Тип	Обов'язкове	За замовчуванням
`file`	file		–

цей інструмент очікує файл - використовуйте Content-Type multipart/form-data замість application/json

Точки доступу

GET https://cdrn.fr/api/v1/tools - перелічує всі доступні інструменти
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - отримує схему цього інструменту
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - виконує цей інструмент з JSON-payload