Conversor de PDF para CSV
Converta o texto do seu PDF em um arquivo CSV que você pode abrir em qualquer aplicativo de planilhas, importar para um banco de dados ou processar com um script. Cada linha da página vira uma linha do CSV, e as colunas são separadas onde há um espaço claro entre os valores. PDFs digitalizados, apenas de imagem, são reconhecidos primeiro com OCR integrado, então até documentos fotografados podem virar linhas estruturadas — tudo no seu navegador, sem envios.
O que esta ferramenta faz?
O conversor de PDF para CSV lê o conteúdo de texto de um PDF e grava um arquivo de valores separados por vírgula. Para PDFs baseados em texto, extrai as palavras e posições diretamente; para digitalizações apenas de imagem, executa primeiro o reconhecimento óptico de caracteres no seu navegador. Cada linha reconhecida é emitida como um registro CSV, e os espaços horizontais largos entre palavras são interpretados como separadores de coluna para que os valores caiam em seus próprios campos. Campos que contêm vírgulas, aspas ou quebras de linha são colocados entre aspas e escapados conforme o padrão RFC 4180, e uma marca de ordem de bytes UTF-8 é adicionada para que os aplicativos de planilhas leiam corretamente os caracteres acentuados e não latinos.
Como funciona
As páginas digitalizadas são rasterizadas e reconhecidas com um motor LSTM do Tesseract; em PDFs baseados em texto, o texto incorporado é lido diretamente. As palavras reconhecidas carregam posições em pixels, que são agrupadas em linhas visuais por alinhamento vertical e ordenadas da esquerda para a direita. Dentro de cada linha, o espaçamento entre as palavras é medido, e um espaço visivelmente maior que o espaçamento normal entre palavras vira um limite de coluna, dividindo a linha em vários campos. Em seguida, os campos são serializados como CSV RFC 4180 — colocando entre aspas e escapando quando necessário, unindo as linhas com CRLF e prefixando uma BOM UTF-8 — e oferecidos como um arquivo .csv para download.
Recursos
- Saída CSV padrão RFC 4180 com aspas e escape corretos
- OCR automático para PDFs digitalizados, apenas de imagem
- Cada linha da página vira uma linha do CSV
- Divisão de colunas com o melhor esforço com base em espaços largos entre valores
- BOM UTF-8 para que o Excel leia Unicode corretamente
- Linha em branco opcional entre as páginas
- 100% no navegador — seu arquivo nunca sai do seu dispositivo
Como usar
- 1
Envie seu PDF
Arraste qualquer PDF para a área de upload. PDFs baseados em texto são lidos diretamente; páginas digitalizadas ou fotografadas são detectadas e passam por OCR automaticamente.
- 2
Escolha o tratamento das colunas
Mantenha a divisão de colunas ativada para separar cada linha em campos nos espaços largos, ou desative-a para manter cada linha completa como um único campo. Opcionalmente, adicione uma linha em branco entre as páginas.
- 3
Converta para CSV
Clique em Converter para CSV. O texto é extraído (com OCR quando necessário) e gravado como linhas separadas por vírgula com o escape adequado.
- 4
Abra ou importe o arquivo
Baixe o .csv e abra-o no Excel, Google Sheets ou LibreOffice — ou importe-o para um banco de dados ou passe-o para um script.
Casos de uso comuns
Pipelines de dados
Extraia texto tabular de PDFs para CSV de modo que possa ser importado para bancos de dados, ferramentas de BI ou scripts de processamento de dados.
Extratos e livros-razão
Transforme as linhas de transações de um PDF de extrato em linhas CSV prontas para softwares de contabilidade ou uma planilha.
Documentos digitalizados
Reconheça o texto de páginas digitalizadas ou fotografadas e exporte-o como CSV, com colunas separadas onde o original tinha espaços claros.
Exportação leve e portátil
Use CSV quando quiser um formato universal de texto puro que abre em qualquer lugar e é fácil de comparar, versionar e automatizar.
Dicas e boas práticas
- A divisão de colunas é uma heurística de melhor esforço baseada no espaçamento, não uma detecção real de tabelas — revise o resultado antes de importar
- A BOM UTF-8 ajuda o Excel a exibir texto acentuado e não latino; alguns analisadores rigorosos podem precisar que a BOM seja removida
- Em PDFs digitalizados, digitalizações de maior qualidade produzem um OCR mais preciso e colunas mais limpas
- Desative a divisão de colunas quando quiser preservar cada linha como um único campo