Convertir un PDF a HTML

Panel
Documentación
API

convierte un PDF en una página HTML autónoma con una capa de texto seleccionable, sin subir ningún archivo; la conversión se realiza por completo en su navegador

Arrastre un PDF aquí, o haga clic para elegirlo

Su archivo nunca sale de su navegador.

Incluir texto seleccionable

Calidad de representación

Vista previa

¿Para qué sirve la conversión de PDF a HTML?

Esta herramienta transforma un archivo PDF en una página HTML autónoma que reproduce fielmente la apariencia del original, página por página, conservando un texto seleccionable y copiable.

El HTML generado es un documento único y autosuficiente: cada página del PDF se convierte en un bloque posicionado, con la imagen de la página de fondo y una capa de texto transparente encima. Puede previsualizarlo, descargarlo o copiarlo con un solo clic.

¿Cómo funciona la herramienta?

Toda la conversión se realiza en su navegador, gracias al motor de representación pdf.js (el mismo que usa Firefox). Su archivo nunca se envía a un servidor: es una ventaja decisiva para documentos confidenciales, contractuales o reglamentarios.

Cada página se representa como una imagen de alta definición (usted elige la calidad) y, a continuación, se superpone una capa de texto invisible para permitir la selección y la búsqueda. Puede desactivar esta capa si solo desea una representación visual.

Casos de uso habituales

Integrar un PDF en una página web manteniendo un texto seleccionable.
Archivar o compartir un documento de forma consultable sin un lector de PDF.
Extraer y copiar el texto de un PDF página por página.
Previsualizar rápidamente el contenido de un PDF sin software dedicado.

¿Qué fidelidad cabe esperar?

La representación visual es muy fiel, ya que cada página es una imagen producida por el propio motor PDF: las fuentes, la maquetación, los colores y los gráficos aparecen como en el original.

Sin embargo, no es un HTML "semántico" reeditable: los gráficos vectoriales se representan como imagen, y la capa de texto sirve ante todo para la selección, con un posicionamiento aproximado. Para un PDF escaneado (imagen sin texto), no se puede generar ninguna capa de texto sin reconocimiento óptico de caracteres (OCR).

Preguntas frecuentes

¿Se envía mi archivo a algún sitio?

No. La conversión se realiza por completo en su navegador; el PDF nunca sale de su dispositivo y no se transmite a ningún servidor.

¿El texto del HTML es seleccionable?

Sí, siempre que el PDF contenga texto real. Se superpone una capa de texto transparente sobre la imagen de cada página para permitir la selección, la copia y la búsqueda.

¿Por qué el texto parece ligeramente desplazado al seleccionarlo?

La representación visible procede de la imagen de la página; la capa de texto se posiciona de forma aproximada. El posible desplazamiento solo afecta a la zona de selección, no a la apariencia del documento.

¿Funcionan los PDF escaneados?

La imagen de cada página se reproducirá correctamente, pero no se podrá seleccionar ningún texto: un PDF escaneado no contiene texto, solo una imagen. Sería necesario un reconocimiento óptico de caracteres (OCR).

¿Se admiten los documentos de varias páginas?

Sí. Todas las páginas se convierten y se agrupan en un único archivo HTML, en el orden del documento original.

Ejemplo de solicitud

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Esquema de entrada

Campo	Tipo	Obligatorio	Por defecto
`file`	file		–

esta herramienta espera un archivo - utiliza Content-Type multipart/form-data en lugar de application/json

Puntos de acceso

GET https://cdrn.fr/api/v1/tools - lista todas las herramientas disponibles
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - recupera el esquema de esta herramienta
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - ejecuta esta herramienta con un payload JSON