Pembersih Teks
Ubah teks berantakan dan tidak terorganisir menjadi konten bersih dan terstruktur. Hapus baris duplikat, hapus baris kosong, hilangkan tag HTML, normalisasi spasi, dan urutkan secara alfabetis. Pipa pembersihan yang dapat dikombinasikan memungkinkan Anda menerapkan kombinasi operasi apa pun dalam satu kali proses. Penting untuk pembersihan data, analisis log, deduplikasi daftar, dan persiapan konten.
Apa yang dilakukan alat ini?
Pembersih Teks menerapkan beberapa operasi pembersihan untuk mengubah teks tidak terorganisir menjadi format yang dapat digunakan. Alat ini dapat menghapus baris duplikat (menyimpan kejadian pertama), menghapus baris kosong, memangkas spasi di awal dan akhir setiap baris, meruntuhkan beberapa spasi berturut-turut menjadi satu spasi, menghapus tag HTML/XML sepenuhnya, dan mengurutkan baris secara alfabetis (dengan opsi urutan terbalik). Operasi diterapkan dalam urutan tetap untuk hasil yang dapat diprediksi, dan Anda dapat mengaktifkan atau menonaktifkan setiap operasi secara individual untuk menyesuaikan pipa pembersihan Anda.
Cara kerjanya
Alat ini memproses teks melalui pipa fungsi transformasi yang dapat dikonfigurasi. Pertama, tag HTML dihapus menggunakan pencocokan pola regex jika opsi tersebut diaktifkan. Kemudian, setiap baris dipangkas dari spasi di awal dan akhir. Beberapa spasi berturut-turut diruntuhkan menjadi satu spasi. Baris kosong difilter jika dipilih. Baris duplikat dideduplikasi berdasarkan pencocokan string eksak (peka huruf besar/kecil). Terakhir, jika pengurutan diaktifkan, baris diurutkan menggunakan perbandingan string yang peka lokal JavaScript. Urutan pemrosesan yang tetap memastikan hasil yang konsisten dan dapat diprediksi terlepas dari opsi yang dipilih.
Fitur
- Hapus baris duplikat (menyimpan kejadian pertama)
- Hapus baris kosong
- Kupas spasi di awal dan akhir setiap baris
- Runtuhkan beberapa spasi menjadi satu spasi
- Hapus tag HTML dan XML
- Urutkan baris secara alfabetis (menaik atau menurun)
- Pipa yang dapat dikombinasikan — campur operasi apa saja
Cara menggunakan
- 1
Tempel teks berantakan Anda
Masukkan teks yang perlu dibersihkan — respons survei, file log, ekspor data, konten yang diambil dari web, daftar yang disalin-tempel, atau teks tidak terorganisir lainnya.
- 2
Pilih operasi pembersihan
Aktifkan atau nonaktifkan operasi yang Anda butuhkan. Kombinasi umum: dedupe + urutkan untuk daftar unik terurut; hapus HTML + kupas untuk konten web; hapus kosong + dedupe untuk pembersihan data.
- 3
Tinjau hasilnya
Output yang dibersihkan muncul secara instan. Urutan pemrosesan tetap adalah: hapus HTML → kupas → runtuhkan spasi → hapus kosong → dedupe → urutkan.
- 4
Salin teks yang dibersihkan
Klik Salin untuk menyalin hasil ke papan klip. Tempel ke spreadsheet, database, editor kode, atau dokumen Anda.
Kasus penggunaan umum
Deduplikasi data
Hapus entri duplikat dari daftar email, basis data pelanggan, data yang diekspor, dan daftar kontak sebelum mengimpor ke sistem CRM atau pemasaran.
Analisis file log
Bersihkan log server dan log aplikasi dengan menghapus duplikat, menghapus tanda waktu jika diperlukan, dan mengurutkan untuk analisis pola.
Ekstraksi konten web
Hapus tag HTML dari konten web yang diambil atau disalin, normalisasi spasi, dan siapkan teks bersih untuk dipublikasikan ulang atau dianalisis.
Pembersihan data survei
Bersihkan respons survei yang berantakan dengan spasi berlebih, entri kosong, dan pengiriman duplikat sebelum analisis.
Tips & praktik terbaik
- Deteksi duplikat peka huruf besar/kecil: 'Apple' dan 'apple' dianggap berbeda. Gunakan Pengubah Kasus terlebih dahulu jika Anda memerlukan deduplikasi yang tidak peka huruf besar/kecil
- Urutan pemrosesan penting: HTML dihapus terlebih dahulu sehingga tag <p> tidak menjadi baris kosong yang kemudian perlu dihapus
- Untuk data CSV, berhati-hatilah dengan opsi runtuhkan spasi — ini dapat mengubah format bidang jika spasi memiliki arti penting
- Kombinasikan dengan Penghitung Kata untuk menganalisis data yang dibersihkan dan melihat pengurangan jumlah baris dan jumlah karakter