Converter um PDF em HTML
- Painel
- Documentação
- API
Arraste um PDF para aqui, ou clique para o escolher
O seu ficheiro nunca sai do seu navegador.
Pré-visualização
Para que serve a conversão de PDF para HTML?
Esta ferramenta transforma um ficheiro PDF numa página HTML autónoma que reproduz fielmente a aparência do original, página a página, mantendo um texto selecionável e copiável.
O HTML produzido é um documento único e autossuficiente: cada página do PDF torna-se um bloco posicionado, com a imagem da página em fundo e uma camada de texto transparente por cima. Pode pré-visualizá-lo, transferi-lo ou copiá-lo com um clique.
Como funciona a ferramenta?
Toda a conversão decorre no seu navegador, graças ao motor de renderização pdf.js (o mesmo do Firefox). O seu ficheiro nunca é enviado para um servidor: é uma vantagem determinante para documentos confidenciais, contratuais ou regulamentares.
Cada página é reproduzida numa imagem de alta definição (escolhe a qualidade) e, em seguida, é sobreposta uma camada de texto invisível para permitir a seleção e a pesquisa. Pode desativar esta camada se pretender apenas uma reprodução visual.
Casos de uso comuns
- Integrar um PDF numa página web mantendo um texto selecionável.
- Arquivar ou partilhar um documento numa forma consultável sem leitor de PDF.
- Extrair e copiar o texto de um PDF página a página.
- Pré-visualizar rapidamente o conteúdo de um PDF sem software dedicado.
Que fidelidade esperar?
A reprodução visual é muito fiel, pois cada página é uma imagem produzida pelo próprio motor PDF: tipos de letra, esquema, cores e gráficos aparecem como no original.
Em contrapartida, não se trata de um HTML «semântico» reeditável: os gráficos vetoriais são reproduzidos em imagem, e a camada de texto serve sobretudo para a seleção, sendo o seu posicionamento aproximado. Para um PDF digitalizado (imagem sem texto), não pode ser gerada qualquer camada de texto sem reconhecimento ótico (OCR).
Perguntas frequentes
O meu ficheiro é enviado para algum lado?
Não. A conversão é realizada inteiramente no seu navegador; o PDF nunca sai do seu dispositivo e não é transmitido a nenhum servidor.
O texto do HTML é selecionável?
Sim, desde que o PDF contenha texto real. Uma camada de texto transparente é sobreposta à imagem de cada página para permitir a seleção, a cópia e a pesquisa.
Porque é que o texto parece ligeiramente desalinhado na seleção?
A reprodução visível provém da imagem da página; a camada de texto é posicionada de forma aproximada. O eventual desalinhamento afeta apenas a zona de seleção, não a aparência do documento.
Os PDF digitalizados funcionam?
A imagem de cada página será reproduzida corretamente, mas nenhum texto poderá ser selecionado: um PDF digitalizado não contém texto, apenas uma imagem. Seria necessário um reconhecimento ótico (OCR).
Os documentos de várias páginas são suportados?
Sim. Todas as páginas são convertidas e reunidas num único ficheiro HTML, pela ordem do documento original.
Exemplo de pedido
curl -X POST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute \
-F "file=@/path/to/file"
Esquema de entrada
| Campo | Tipo | Obrigatório | Predefinição |
|---|---|---|---|
file |
file | – |
esta ferramenta espera um ficheiro - utilize Content-Type multipart/form-data em vez de application/json
Pontos de acesso
GET https://cdrn.fr/api/v1/tools- lista todas as ferramentas disponíveisGET https://cdrn.fr/api/v1/tools/pdf-to-html-converter- obtém o esquema desta ferramentaPOST https://cdrn.fr/api/v1/tools/pdf-to-html-converter/execute- executa esta ferramenta com um payload JSON