Konverter PDF ke CSV
Konversi teks dalam PDF Anda menjadi file CSV yang dapat dibuka di aplikasi spreadsheet apa pun, diimpor ke basis data, atau diproses dengan skrip. Setiap baris pada halaman menjadi satu baris CSV, dan kolom dipisahkan di tempat yang memiliki celah jelas antara nilai. PDF hasil pindai yang hanya berupa gambar dikenali terlebih dahulu dengan OCR bawaan, sehingga bahkan dokumen hasil foto pun dapat diubah menjadi baris terstruktur — semuanya di browser Anda, tanpa unggahan.
Apa yang dilakukan alat ini?
Konverter PDF ke CSV membaca konten teks dari PDF dan menulis file nilai yang dipisahkan koma. Untuk PDF berbasis teks, alat ini mengekstrak kata dan posisinya secara langsung; untuk pindaian yang hanya berupa gambar, alat ini menjalankan pengenalan karakter optik di browser Anda terlebih dahulu. Setiap baris yang dikenali dikeluarkan sebagai satu rekaman CSV, dan celah horizontal yang lebar antar kata ditafsirkan sebagai pemisah kolom sehingga nilai jatuh ke dalam bidangnya masing-masing. Bidang yang berisi koma, tanda kutip, atau jeda baris diberi tanda kutip dan di-escape sesuai standar RFC 4180, dan tanda urutan byte UTF-8 ditambahkan agar aplikasi spreadsheet membaca karakter beraksen dan non-Latin dengan benar.
Cara kerjanya
Halaman hasil pindai diraster dan dikenali dengan mesin LSTM Tesseract; pada PDF berbasis teks, teks tertanam dibaca langsung. Kata-kata yang dikenali membawa posisi piksel, yang dikelompokkan menjadi baris visual berdasarkan perataan vertikal dan diurutkan dari kiri ke kanan. Di dalam setiap baris, jarak antar kata diukur, dan celah yang jelas lebih lebar daripada spasi antar kata biasa menjadi batas kolom, membagi baris menjadi beberapa bidang. Bidang-bidang tersebut kemudian diserialkan sebagai CSV RFC 4180 — memberi tanda kutip dan escape bila perlu, menggabungkan baris dengan CRLF, dan menambahkan BOM UTF-8 di awal — lalu ditawarkan sebagai file .csv yang dapat diunduh.
Fitur
- Keluaran CSV standar RFC 4180 dengan tanda kutip dan escape yang benar
- OCR otomatis untuk PDF hasil pindai yang hanya berupa gambar
- Setiap baris halaman menjadi satu baris CSV
- Pemisahan kolom upaya terbaik berdasarkan celah lebar antar nilai
- BOM UTF-8 agar Excel membaca Unicode dengan benar
- Baris kosong opsional di antara halaman
- 100% di browser — file Anda tidak pernah meninggalkan perangkat Anda
Cara menggunakan
- 1
Unggah PDF Anda
Seret PDF apa pun ke area unggah. PDF berbasis teks dibaca langsung; halaman hasil pindai atau foto dideteksi dan di-OCR secara otomatis.
- 2
Pilih penanganan kolom
Biarkan pemisahan kolom aktif untuk memecah setiap baris menjadi bidang pada celah lebar, atau matikan untuk mempertahankan setiap baris penuh sebagai satu bidang. Secara opsional tambahkan baris kosong di antara halaman.
- 3
Konversi ke CSV
Klik Konversi ke CSV. Teks diekstrak (dengan OCR bila perlu) dan ditulis sebagai baris yang dipisahkan koma dengan escape yang tepat.
- 4
Buka atau impor file
Unduh file .csv dan buka di Excel, Google Sheets, atau LibreOffice — atau impor ke basis data atau berikan ke skrip.
Kasus penggunaan umum
Pipeline data
Ekstrak teks tabel dari PDF ke CSV agar dapat diimpor ke basis data, alat BI, atau skrip pemrosesan data.
Rekening koran dan buku besar
Ubah baris transaksi dari PDF rekening koran menjadi baris CSV yang siap untuk perangkat lunak akuntansi atau spreadsheet.
Dokumen hasil pindai
Kenali teks dari halaman hasil pindai atau foto dan ekspor sebagai CSV, dengan kolom dipisahkan di tempat yang memiliki spasi jelas pada aslinya.
Ekspor ringan dan portabel
Gunakan CSV bila Anda ingin format teks biasa universal yang terbuka di mana saja dan mudah dibandingkan, diberi versi, dan diotomatisasi.
Tips & praktik terbaik
- Pemisahan kolom adalah heuristik upaya terbaik berdasarkan spasi, bukan deteksi tabel sungguhan — tinjau hasilnya sebelum mengimpor
- BOM UTF-8 membantu Excel menampilkan teks beraksen dan non-Latin; beberapa parser ketat mungkin perlu BOM-nya dihapus
- Untuk PDF hasil pindai, pindaian berkualitas lebih tinggi menghasilkan OCR yang lebih akurat dan kolom yang lebih rapi
- Matikan pemisahan kolom jika Anda ingin mempertahankan setiap baris sebagai satu bidang