Ferramentas de PDF

Conversor de PDF para CSV

Converta o texto do seu PDF em um arquivo CSV que você pode abrir em qualquer aplicativo de planilhas, importar para um banco de dados ou processar com um script. Cada linha da página vira uma linha do CSV, e as colunas são separadas onde há um espaço claro entre os valores. PDFs digitalizados, apenas de imagem, são reconhecidos primeiro com OCR integrado, então até documentos fotografados podem virar linhas estruturadas — tudo no seu navegador, sem envios.

JavaScript Necessário

Esta ferramenta requer JavaScript para funcionar. Por favor, ative o JavaScript nas configurações do seu navegador para usar Conversor de PDF para CSV.

Por que JavaScript? Esta ferramenta processa seus arquivos inteiramente no seu navegador usando WebAssembly — nada é enviado para servidores. Esta abordagem focada em privacidade requer que o JavaScript esteja habilitado.

O que esta ferramenta faz?

O conversor de PDF para CSV lê o conteúdo de texto de um PDF e grava um arquivo de valores separados por vírgula. Para PDFs baseados em texto, extrai as palavras e posições diretamente; para digitalizações apenas de imagem, executa primeiro o reconhecimento óptico de caracteres no seu navegador. Cada linha reconhecida é emitida como um registro CSV, e os espaços horizontais largos entre palavras são interpretados como separadores de coluna para que os valores caiam em seus próprios campos. Campos que contêm vírgulas, aspas ou quebras de linha são colocados entre aspas e escapados conforme o padrão RFC 4180, e uma marca de ordem de bytes UTF-8 é adicionada para que os aplicativos de planilhas leiam corretamente os caracteres acentuados e não latinos.

Como funciona

As páginas digitalizadas são rasterizadas e reconhecidas com um motor LSTM do Tesseract; em PDFs baseados em texto, o texto incorporado é lido diretamente. As palavras reconhecidas carregam posições em pixels, que são agrupadas em linhas visuais por alinhamento vertical e ordenadas da esquerda para a direita. Dentro de cada linha, o espaçamento entre as palavras é medido, e um espaço visivelmente maior que o espaçamento normal entre palavras vira um limite de coluna, dividindo a linha em vários campos. Em seguida, os campos são serializados como CSV RFC 4180 — colocando entre aspas e escapando quando necessário, unindo as linhas com CRLF e prefixando uma BOM UTF-8 — e oferecidos como um arquivo .csv para download.

Recursos

Saída CSV padrão RFC 4180 com aspas e escape corretos
OCR automático para PDFs digitalizados, apenas de imagem
Cada linha da página vira uma linha do CSV
Divisão de colunas com o melhor esforço com base em espaços largos entre valores
BOM UTF-8 para que o Excel leia Unicode corretamente
Linha em branco opcional entre as páginas
100% no navegador — seu arquivo nunca sai do seu dispositivo

Como usar

1

Envie seu PDF

Arraste qualquer PDF para a área de upload. PDFs baseados em texto são lidos diretamente; páginas digitalizadas ou fotografadas são detectadas e passam por OCR automaticamente.
2

Escolha o tratamento das colunas

Mantenha a divisão de colunas ativada para separar cada linha em campos nos espaços largos, ou desative-a para manter cada linha completa como um único campo. Opcionalmente, adicione uma linha em branco entre as páginas.
3

Converta para CSV

Clique em Converter para CSV. O texto é extraído (com OCR quando necessário) e gravado como linhas separadas por vírgula com o escape adequado.
4

Abra ou importe o arquivo

Baixe o .csv e abra-o no Excel, Google Sheets ou LibreOffice — ou importe-o para um banco de dados ou passe-o para um script.

Casos de uso comuns

Pipelines de dados

Extraia texto tabular de PDFs para CSV de modo que possa ser importado para bancos de dados, ferramentas de BI ou scripts de processamento de dados.

Extratos e livros-razão

Transforme as linhas de transações de um PDF de extrato em linhas CSV prontas para softwares de contabilidade ou uma planilha.

Documentos digitalizados

Reconheça o texto de páginas digitalizadas ou fotografadas e exporte-o como CSV, com colunas separadas onde o original tinha espaços claros.

Exportação leve e portátil

Use CSV quando quiser um formato universal de texto puro que abre em qualquer lugar e é fácil de comparar, versionar e automatizar.

Dicas e boas práticas

A divisão de colunas é uma heurística de melhor esforço baseada no espaçamento, não uma detecção real de tabelas — revise o resultado antes de importar
A BOM UTF-8 ajuda o Excel a exibir texto acentuado e não latino; alguns analisadores rigorosos podem precisar que a BOM seja removida
Em PDFs digitalizados, digitalizações de maior qualidade produzem um OCR mais preciso e colunas mais limpas
Desative a divisão de colunas quando quiser preservar cada linha como um único campo

Perguntas frequentes

Funciona em PDFs digitalizados?

Sim. Páginas apenas de imagem são detectadas e reconhecidas com OCR integrado antes de o CSV ser montado. A qualidade do reconhecimento depende da nitidez da digitalização.

Como as colunas são determinadas?

Cada linha é dividida em campos onde há um espaço claramente maior que o normal entre as palavras. É uma heurística de melhor esforço, não uma detecção real de tabelas, então algumas colunas podem precisar de ajuste após a importação.

Vírgulas dentro do texto vão quebrar o arquivo?

Não. Campos que contêm vírgulas, aspas ou quebras de linha são colocados entre aspas e escapados conforme o padrão CSV RFC 4180, então o arquivo é analisado corretamente.

Isto é realmente grátis e privado?

Sim. Tudo é executado no seu navegador usando processamento do lado do cliente e OCR. Não há envios, assinaturas nem limites de uso.

Ferramentas relacionadas

pdf to excel Ferramentas de PDF extract text Ferramentas de PDF csv json Ferramentas de PDF