UltraConvert
Alat PDF

Ekstrak Teks dari PDF

Ekstrak setiap baris teks dari dokumen PDF untuk digunakan dalam aplikasi lain. Ekspor sebagai teks biasa untuk salin-tempel sederhana, Markdown dengan struktur halaman tetap terjaga, atau JSON terperinci yang berisi posisi kata, font, dan nilai bidang formulir. Sempurna untuk migrasi konten, analisis teks, aksesibilitas, dan alur kerja ekstraksi data.

Apa yang dilakukan alat ini?

Alat Ekstrak Teks menarik konten teks dari dokumen PDF dalam tiga format yang berguna. Output teks biasa menyediakan teks bersih yang siap salin-tempel tanpa format. Format Markdown mempertahankan struktur halaman dengan judul dan petunjuk format dasar. Format JSON menyediakan ekstraksi terperinci termasuk kotak pembatas tingkat kata, informasi font, ukuran font, dan nilai bidang AcroForm untuk pemrosesan lanjutan dan kebutuhan ekstraksi data.

Cara kerjanya

Menggunakan kemampuan ekstraksi teks MuPDF, alat ini menganalisis aliran konten PDF untuk mengidentifikasi elemen teks. Ini memetakan data glyph ke karakter Unicode, mengekstrak informasi posisi, dan mengidentifikasi properti font. Untuk output JSON, alat ini menyediakan array per halaman dari blok teks dengan koordinat kotak pembatas, memungkinkan identifikasi lokasi teks yang presisi. Bidang formulir dideteksi melalui analisis AcroForm, dengan nama widget, tipe, dan nilai saat ini diekstrak dan disertakan dalam output.

Fitur

Cara menggunakan

  1. 1

    Unggah PDF Anda

    Seret PDF berbasis teks (bukan hasil pemindaian gambar murni) ke zona drop. Alat ini menganalisis dokumen dan menyiapkan ekstraksi.

  2. 2

    Pilih format output

    Pilih Teks biasa untuk kemudahan salin-tempel, Markdown untuk teks terstruktur dengan judul halaman, atau JSON untuk pemrosesan programmatic dengan data posisi.

  3. 3

    Tinjau pratinjau

    Panel pratinjau menampilkan sampel teks yang diekstrak. Tinjau untuk memastikan ekstraksi menangkap teks dengan benar.

  4. 4

    Unduh file teks

    Klik Ekstrak untuk menghasilkan file output. Unduh file .txt, .md, atau .json tergantung pada format yang Anda pilih.

Kasus penggunaan umum

Migrasi konten ke platform web

Ekstrak teks dari laporan PDF, whitepaper, atau dokumentasi untuk dipublikasikan ulang di situs web atau sistem manajemen konten.

Ekstraksi data dari formulir

Gunakan output JSON untuk mengekstrak nilai dari formulir PDF yang diisi secara programmatic untuk impor database atau pemrosesan catatan.

Analisis teks dan pemrosesan NLP

Ekstrak teks untuk pemrosesan bahasa alami, analisis sentimen, ekstraksi kata kunci, atau persiapan data pelatihan pembelajaran mesin.

Alternatif teks aksesibilitas

Ekstrak teks dari PDF untuk membuat versi HTML yang dapat diakses atau konten ramah pembaca layar untuk pengguna berkebutuhan khusus.

Tips & praktik terbaik

Pertanyaan yang sering diajukan

Apakah ini akan bekerja pada PDF hasil pemindaian?
Hanya jika pemindaian telah di-OCR (pengenalan karakter optik). Pemindaian gambar murni tidak mengandung data teks untuk diekstrak. Alat ekstraksi teks membaca informasi teks yang tertanam, bukan konten gambar visual.
Mengapa output saya kosong atau rusak?
Beberapa PDF mengkodekan teks sebagai indeks glyph kustom tanpa peta karakter Unicode yang tepat. Ini tidak dapat dipetakan balik ke teks yang dapat dibaca. Ini umum terjadi pada PDF dengan font subset tertanam yang tidak memiliki tabel pengkodean yang tepat.
Apa yang disertakan dalam output JSON?
JSON berisi data per halaman termasuk konten teks mentah, array blok tingkat kata dengan koordinat kotak pembatas (x, y, lebar, tinggi), nama font dan ukuran untuk setiap blok, serta bidang AcroForm apa pun dengan nama, tipe, dan nilainya.
Apakah ekstraksi mempertahankan format?
Teks biasa menghapus semua format. Markdown mempertahankan struktur halaman dan hierarki dasar. JSON mempertahankan data posisi yang memungkinkan Anda menyusun ulang tata letak secara programmatic. Format kompleks seperti tabel mungkin memerlukan pembersihan manual.

Alat terkait