Convertidor de PDF a CSV
Convierte el texto de tu PDF en un archivo CSV que puedes abrir en cualquier aplicación de hojas de cálculo, importar a una base de datos o procesar con un script. Cada línea de la página se convierte en una fila CSV y las columnas se separan donde hay un espacio claro entre los valores. Los PDF escaneados, solo de imagen, se reconocen primero con OCR integrado, así que incluso los documentos fotografiados pueden convertirse en filas estructuradas, todo en tu navegador y sin subir nada.
¿Qué hace esta herramienta?
El convertidor de PDF a CSV lee el contenido de texto de un PDF y escribe un archivo de valores separados por comas. Para los PDF basados en texto extrae las palabras y posiciones directamente; para los escaneos solo de imagen ejecuta primero el reconocimiento óptico de caracteres en tu navegador. Cada línea reconocida se emite como un registro CSV, y los espacios horizontales amplios entre palabras se interpretan como separadores de columna para que los valores caigan en sus propios campos. Los campos que contienen comas, comillas o saltos de línea se entrecomillan y escapan según el estándar RFC 4180, y se añade una marca de orden de bytes UTF-8 para que las aplicaciones de hojas de cálculo lean correctamente los caracteres acentuados y no latinos.
Cómo funciona
Las páginas escaneadas se rasterizan y se reconocen con un motor LSTM de Tesseract; en los PDF basados en texto se lee directamente el texto incrustado. Las palabras reconocidas tienen posiciones en píxeles, que se agrupan en líneas visuales por alineación vertical y se ordenan de izquierda a derecha. Dentro de cada línea se mide el espacio entre palabras, y un hueco notablemente más ancho que el espacio normal entre palabras se convierte en un límite de columna, dividiendo la línea en varios campos. Luego, los campos se serializan como CSV RFC 4180 — entrecomillando y escapando cuando es necesario, uniendo las filas con CRLF y anteponiendo una BOM UTF-8 — y se ofrecen como un archivo .csv descargable.
Características
- Salida CSV estándar RFC 4180 con entrecomillado y escape correctos
- OCR automático para PDF escaneados, solo de imagen
- Cada línea de la página se convierte en una fila CSV
- División de columnas con el mejor esfuerzo según los espacios amplios entre valores
- BOM UTF-8 para que Excel lea Unicode correctamente
- Fila en blanco opcional entre páginas
- 100% en el navegador — tu archivo nunca sale de tu dispositivo
Cómo usar
- 1
Sube tu PDF
Arrastra cualquier PDF a la zona de carga. Los PDF basados en texto se leen directamente; las páginas escaneadas o fotografiadas se detectan y procesan con OCR automáticamente.
- 2
Elige el manejo de columnas
Mantén activada la división de columnas para separar cada línea en campos en los huecos amplios, o desactívala para mantener cada línea completa como un solo campo. Opcionalmente añade una fila en blanco entre páginas.
- 3
Convierte a CSV
Haz clic en Convertir a CSV. El texto se extrae (con OCR cuando es necesario) y se escribe como filas separadas por comas con el escape adecuado.
- 4
Abre o importa el archivo
Descarga el .csv y ábrelo en Excel, Google Sheets o LibreOffice — o impórtalo a una base de datos o pásalo a un script.
Casos de uso comunes
Canalizaciones de datos
Extrae texto tabular de los PDF a CSV para poder importarlo a bases de datos, herramientas de BI o scripts de procesamiento de datos.
Estados de cuenta y libros contables
Convierte las líneas de transacciones de un PDF de estado de cuenta en filas CSV listas para software contable o una hoja de cálculo.
Documentos escaneados
Reconoce el texto de páginas escaneadas o fotografiadas y expórtalo como CSV, con columnas separadas donde el original tenía espacios claros.
Exportación ligera y portátil
Usa CSV cuando quieras un formato universal de texto plano que se abre en todas partes y es fácil de comparar, versionar y automatizar.
Consejos y buenas prácticas
- La división de columnas es una heurística con el mejor esfuerzo basada en los espacios, no una detección real de tablas — revisa el resultado antes de importarlo
- La BOM UTF-8 ayuda a Excel a mostrar texto acentuado y no latino; algunos analizadores estrictos pueden necesitar que se elimine la BOM
- En los PDF escaneados, los escaneos de mayor calidad producen un OCR más preciso y columnas más limpias
- Desactiva la división de columnas cuando quieras conservar cada línea como un solo campo