Преобразуване на PDF в HTML

Табло
Документация
API

преобразува PDF в самостоятелна HTML страница с избираем текстов слой, без никакво качване на файл; преобразуването се извършва изцяло във вашия браузър

Плъзнете PDF тук или щракнете, за да го изберете

Вашият файл никога не напуска браузъра ви.

Включване на избираемия текст

Качество на възпроизвеждане

Преглед

За какво служи преобразуването от PDF в HTML?

Този инструмент превръща PDF файл в самостоятелна HTML страница, която точно възпроизвежда вида на оригинала, страница по страница, като същевременно запазва текста избираем и копируем.

Полученият HTML е единен и самодостатъчен документ: всяка страница от PDF файла се превръща в позициониран блок, с изображението на страницата на фона и прозрачен текстов слой отгоре. Можете да го прегледате, да го изтеглите или да го копирате с едно щракване.

Как работи инструментът?

Цялото преобразуване се извършва във вашия браузър, благодарение на машината за рендиране pdf.js (същата като във Firefox). Вашият файл никога не се изпраща към сървър: това е решаващо предимство за поверителни, договорни или регулаторни документи.

Всяка страница се възпроизвежда като изображение с висока резолюция (вие избирате качеството), след което се наслагва невидим текстов слой, за да позволи избирането и търсенето. Можете да деактивирате този слой, ако желаете само визуално възпроизвеждане.

Често срещани случаи на употреба

Вграждане на PDF в уеб страница със запазен избираем текст.
Архивиране или споделяне на документ във вид, който може да се преглежда без четец на PDF.
Извличане и копиране на текста от PDF страница по страница.
Бърз преглед на съдържанието на PDF без специализиран софтуер.

Каква точност да очаквате?

Визуалното възпроизвеждане е много точно, тъй като всяка страница е изображение, създадено от самата машина за PDF: шрифтовете, оформлението, цветовете и графиките се показват както в оригинала.

За сметка на това това не е „семантичен“ HTML, който може да се редактира отново: векторните графики се възпроизвеждат като изображение, а текстовият слой служи преди всичко за избиране, като позиционирането му е приблизително. За сканиран PDF (изображение без текст) не може да се генерира текстов слой без оптично разпознаване (OCR).

Често задавани въпроси

Изпраща ли се моят файл някъде?

Не. Преобразуването се извършва изцяло във вашия браузър; PDF файлът никога не напуска вашето устройство и не се предава на никакъв сървър.

Избираем ли е текстът в HTML?

Да, стига PDF файлът да съдържа истински текст. Прозрачен текстов слой се наслагва върху изображението на всяка страница, за да позволи избирането, копирането и търсенето.

Защо текстът изглежда леко изместен при избиране?

Видимото изображение идва от изображението на страницата; текстовият слой е позициониран приблизително. Евентуалното изместване засяга само зоната на избиране, а не вида на документа.

Работят ли сканираните PDF файлове?

Изображението на всяка страница ще бъде възпроизведено правилно, но няма да може да се избере никакъв текст: сканираният PDF не съдържа текст, а само изображение. Би било необходимо оптично разпознаване (OCR).

Поддържат ли се документи с няколко страници?

Да. Всички страници се преобразуват и обединяват в един-единствен HTML файл, в реда на оригиналния документ.

Пример за заявка

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Входна схема

Поле	Тип	Задължително	По подразбиране
`file`	file		–

този инструмент очаква файл - използвайте Content-Type multipart/form-data вместо application/json

Крайни точки

GET https://cdrn.fr/api/v1/tools - изброява всички достъпни инструменти
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - извлича схемата на този инструмент
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - изпълнява този инструмент с JSON payload