Converter um PDF em HTML

Painel
Documentação
API

converte um PDF numa página HTML autónoma com camada de texto selecionável, sem qualquer envio de ficheiro; a conversão é feita inteiramente no seu navegador

Arraste um PDF para aqui, ou clique para o escolher

O seu ficheiro nunca sai do seu navegador.

Incluir o texto selecionável

Qualidade de reprodução

Pré-visualização

Para que serve a conversão de PDF para HTML?

Esta ferramenta transforma um ficheiro PDF numa página HTML autónoma que reproduz fielmente a aparência do original, página a página, mantendo um texto selecionável e copiável.

O HTML produzido é um documento único e autossuficiente: cada página do PDF torna-se um bloco posicionado, com a imagem da página em fundo e uma camada de texto transparente por cima. Pode pré-visualizá-lo, transferi-lo ou copiá-lo com um clique.

Como funciona a ferramenta?

Toda a conversão decorre no seu navegador, graças ao motor de renderização pdf.js (o mesmo do Firefox). O seu ficheiro nunca é enviado para um servidor: é uma vantagem determinante para documentos confidenciais, contratuais ou regulamentares.

Cada página é reproduzida numa imagem de alta definição (escolhe a qualidade) e, em seguida, é sobreposta uma camada de texto invisível para permitir a seleção e a pesquisa. Pode desativar esta camada se pretender apenas uma reprodução visual.

Casos de uso comuns

Integrar um PDF numa página web mantendo um texto selecionável.
Arquivar ou partilhar um documento numa forma consultável sem leitor de PDF.
Extrair e copiar o texto de um PDF página a página.
Pré-visualizar rapidamente o conteúdo de um PDF sem software dedicado.

Que fidelidade esperar?

A reprodução visual é muito fiel, pois cada página é uma imagem produzida pelo próprio motor PDF: tipos de letra, esquema, cores e gráficos aparecem como no original.

Em contrapartida, não se trata de um HTML «semântico» reeditável: os gráficos vetoriais são reproduzidos em imagem, e a camada de texto serve sobretudo para a seleção, sendo o seu posicionamento aproximado. Para um PDF digitalizado (imagem sem texto), não pode ser gerada qualquer camada de texto sem reconhecimento ótico (OCR).

Perguntas frequentes

O meu ficheiro é enviado para algum lado?

Não. A conversão é realizada inteiramente no seu navegador; o PDF nunca sai do seu dispositivo e não é transmitido a nenhum servidor.

O texto do HTML é selecionável?

Sim, desde que o PDF contenha texto real. Uma camada de texto transparente é sobreposta à imagem de cada página para permitir a seleção, a cópia e a pesquisa.

Porque é que o texto parece ligeiramente desalinhado na seleção?

A reprodução visível provém da imagem da página; a camada de texto é posicionada de forma aproximada. O eventual desalinhamento afeta apenas a zona de seleção, não a aparência do documento.

Os PDF digitalizados funcionam?

A imagem de cada página será reproduzida corretamente, mas nenhum texto poderá ser selecionado: um PDF digitalizado não contém texto, apenas uma imagem. Seria necessário um reconhecimento ótico (OCR).

Os documentos de várias páginas são suportados?

Sim. Todas as páginas são convertidas e reunidas num único ficheiro HTML, pela ordem do documento original.

Exemplo de pedido

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Esquema de entrada

Campo	Tipo	Obrigatório	Predefinição
`file`	file		–

esta ferramenta espera um ficheiro - utilize Content-Type multipart/form-data em vez de application/json

Pontos de acesso

GET https://cdrn.fr/api/v1/tools - lista todas as ferramentas disponíveis
GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - obtém o esquema desta ferramenta
POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - executa esta ferramenta com um payload JSON