UltraConvert
Ferramentas de PDF

Conversor de PDF para CSV

Converta o texto do seu PDF em um arquivo CSV que você pode abrir em qualquer aplicativo de planilhas, importar para um banco de dados ou processar com um script. Cada linha da página vira uma linha do CSV, e as colunas são separadas onde há um espaço claro entre os valores. PDFs digitalizados, apenas de imagem, são reconhecidos primeiro com OCR integrado, então até documentos fotografados podem virar linhas estruturadas — tudo no seu navegador, sem envios.

O que esta ferramenta faz?

O conversor de PDF para CSV lê o conteúdo de texto de um PDF e grava um arquivo de valores separados por vírgula. Para PDFs baseados em texto, extrai as palavras e posições diretamente; para digitalizações apenas de imagem, executa primeiro o reconhecimento óptico de caracteres no seu navegador. Cada linha reconhecida é emitida como um registro CSV, e os espaços horizontais largos entre palavras são interpretados como separadores de coluna para que os valores caiam em seus próprios campos. Campos que contêm vírgulas, aspas ou quebras de linha são colocados entre aspas e escapados conforme o padrão RFC 4180, e uma marca de ordem de bytes UTF-8 é adicionada para que os aplicativos de planilhas leiam corretamente os caracteres acentuados e não latinos.

Como funciona

As páginas digitalizadas são rasterizadas e reconhecidas com um motor LSTM do Tesseract; em PDFs baseados em texto, o texto incorporado é lido diretamente. As palavras reconhecidas carregam posições em pixels, que são agrupadas em linhas visuais por alinhamento vertical e ordenadas da esquerda para a direita. Dentro de cada linha, o espaçamento entre as palavras é medido, e um espaço visivelmente maior que o espaçamento normal entre palavras vira um limite de coluna, dividindo a linha em vários campos. Em seguida, os campos são serializados como CSV RFC 4180 — colocando entre aspas e escapando quando necessário, unindo as linhas com CRLF e prefixando uma BOM UTF-8 — e oferecidos como um arquivo .csv para download.

Recursos

Como usar

  1. 1

    Envie seu PDF

    Arraste qualquer PDF para a área de upload. PDFs baseados em texto são lidos diretamente; páginas digitalizadas ou fotografadas são detectadas e passam por OCR automaticamente.

  2. 2

    Escolha o tratamento das colunas

    Mantenha a divisão de colunas ativada para separar cada linha em campos nos espaços largos, ou desative-a para manter cada linha completa como um único campo. Opcionalmente, adicione uma linha em branco entre as páginas.

  3. 3

    Converta para CSV

    Clique em Converter para CSV. O texto é extraído (com OCR quando necessário) e gravado como linhas separadas por vírgula com o escape adequado.

  4. 4

    Abra ou importe o arquivo

    Baixe o .csv e abra-o no Excel, Google Sheets ou LibreOffice — ou importe-o para um banco de dados ou passe-o para um script.

Casos de uso comuns

Pipelines de dados

Extraia texto tabular de PDFs para CSV de modo que possa ser importado para bancos de dados, ferramentas de BI ou scripts de processamento de dados.

Extratos e livros-razão

Transforme as linhas de transações de um PDF de extrato em linhas CSV prontas para softwares de contabilidade ou uma planilha.

Documentos digitalizados

Reconheça o texto de páginas digitalizadas ou fotografadas e exporte-o como CSV, com colunas separadas onde o original tinha espaços claros.

Exportação leve e portátil

Use CSV quando quiser um formato universal de texto puro que abre em qualquer lugar e é fácil de comparar, versionar e automatizar.

Dicas e boas práticas

Perguntas frequentes

Funciona em PDFs digitalizados?
Sim. Páginas apenas de imagem são detectadas e reconhecidas com OCR integrado antes de o CSV ser montado. A qualidade do reconhecimento depende da nitidez da digitalização.
Como as colunas são determinadas?
Cada linha é dividida em campos onde há um espaço claramente maior que o normal entre as palavras. É uma heurística de melhor esforço, não uma detecção real de tabelas, então algumas colunas podem precisar de ajuste após a importação.
Vírgulas dentro do texto vão quebrar o arquivo?
Não. Campos que contêm vírgulas, aspas ou quebras de linha são colocados entre aspas e escapados conforme o padrão CSV RFC 4180, então o arquivo é analisado corretamente.
Isto é realmente grátis e privado?
Sim. Tudo é executado no seu navegador usando processamento do lado do cliente e OCR. Não há envios, assinaturas nem limites de uso.

Ferramentas relacionadas