Converter um PDF em HTML

converte um PDF numa página HTML autónoma com camada de texto selecionável, sem qualquer envio de ficheiro; a conversão é feita inteiramente no seu navegador

Arraste um PDF para aqui, ou clique para o escolher

O seu ficheiro nunca sai do seu navegador.

Qualidade de reprodução

Para que serve a conversão de PDF para HTML?

Esta ferramenta transforma um ficheiro PDF numa página HTML autónoma que reproduz fielmente a aparência do original, página a página, mantendo um texto selecionável e copiável.

O HTML produzido é um documento único e autossuficiente: cada página do PDF torna-se um bloco posicionado, com a imagem da página em fundo e uma camada de texto transparente por cima. Pode pré-visualizá-lo, transferi-lo ou copiá-lo com um clique.

Como funciona a ferramenta?

Toda a conversão decorre no seu navegador, graças ao motor de renderização pdf.js (o mesmo do Firefox). O seu ficheiro nunca é enviado para um servidor: é uma vantagem determinante para documentos confidenciais, contratuais ou regulamentares.

Cada página é reproduzida numa imagem de alta definição (escolhe a qualidade) e, em seguida, é sobreposta uma camada de texto invisível para permitir a seleção e a pesquisa. Pode desativar esta camada se pretender apenas uma reprodução visual.

Casos de uso comuns

  • Integrar um PDF numa página web mantendo um texto selecionável.
  • Arquivar ou partilhar um documento numa forma consultável sem leitor de PDF.
  • Extrair e copiar o texto de um PDF página a página.
  • Pré-visualizar rapidamente o conteúdo de um PDF sem software dedicado.

Que fidelidade esperar?

A reprodução visual é muito fiel, pois cada página é uma imagem produzida pelo próprio motor PDF: tipos de letra, esquema, cores e gráficos aparecem como no original.

Em contrapartida, não se trata de um HTML «semântico» reeditável: os gráficos vetoriais são reproduzidos em imagem, e a camada de texto serve sobretudo para a seleção, sendo o seu posicionamento aproximado. Para um PDF digitalizado (imagem sem texto), não pode ser gerada qualquer camada de texto sem reconhecimento ótico (OCR).

Perguntas frequentes

O meu ficheiro é enviado para algum lado?

Não. A conversão é realizada inteiramente no seu navegador; o PDF nunca sai do seu dispositivo e não é transmitido a nenhum servidor.

O texto do HTML é selecionável?

Sim, desde que o PDF contenha texto real. Uma camada de texto transparente é sobreposta à imagem de cada página para permitir a seleção, a cópia e a pesquisa.

Porque é que o texto parece ligeiramente desalinhado na seleção?

A reprodução visível provém da imagem da página; a camada de texto é posicionada de forma aproximada. O eventual desalinhamento afeta apenas a zona de seleção, não a aparência do documento.

Os PDF digitalizados funcionam?

A imagem de cada página será reproduzida corretamente, mas nenhum texto poderá ser selecionado: um PDF digitalizado não contém texto, apenas uma imagem. Seria necessário um reconhecimento ótico (OCR).

Os documentos de várias páginas são suportados?

Sim. Todas as páginas são convertidas e reunidas num único ficheiro HTML, pela ordem do documento original.

Exemplo de pedido

curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
  -F "file=@/path/to/file"

Esquema de entrada

Campo Tipo Obrigatório Predefinição
file file

esta ferramenta espera um ficheiro - utilize Content-Type multipart/form-data em vez de application/json

Pontos de acesso

  • GET https://cdrn.fr/api/v1/tools - lista todas as ferramentas disponíveis
  • GET https://cdrn.fr/api/v1/tools/pdf-to-html-converter - obtém o esquema desta ferramenta
  • POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute - executa esta ferramenta com um payload JSON