محوّل PDF إلى CSV
حوّل النص في ملف PDF إلى ملف CSV يمكنك فتحه في أي تطبيق جداول بيانات أو استيراده إلى قاعدة بيانات أو معالجته باستخدام برنامج نصي. يتحول كل سطر في الصفحة إلى صف CSV، وتُفصل الأعمدة حيث توجد فجوة واضحة بين القيم. تُعرَّف ملفات PDF الممسوحة ضوئيًا والتي تحتوي على صور فقط أولًا باستخدام التعرف الضوئي المدمج، لذا يمكن حتى للمستندات المصوّرة أن تتحول إلى صفوف منظمة — كل ذلك في متصفحك ودون أي رفع.
ماذا تفعل هذه الأداة؟
يقرأ محوّل PDF إلى CSV محتوى النص في ملف PDF ويكتب ملف قيم مفصولة بفواصل. بالنسبة لملفات PDF القائمة على النص، يستخرج الكلمات والمواضع مباشرة؛ أما بالنسبة للمسوحات الضوئية التي تحتوي على صور فقط، فيشغّل أولًا التعرف الضوئي على الحروف في متصفحك. يُخرَج كل سطر مُعرَّف كسجل CSV واحد، وتُفسَّر الفجوات الأفقية الواسعة بين الكلمات على أنها فواصل أعمدة بحيث تقع القيم في حقولها الخاصة. الحقول التي تحتوي على فواصل أو علامات اقتباس أو فواصل أسطر تُحاط بعلامات اقتباس ويُهرَّب محتواها وفق معيار RFC 4180، وتُضاف علامة ترتيب البايت UTF-8 لكي تقرأ تطبيقات جداول البيانات الأحرف المشكَّلة وغير اللاتينية بشكل صحيح.
كيف تعمل
تُحوَّل الصفحات الممسوحة ضوئيًا إلى نقاط ويُتعرَّف على نصها باستخدام محرك Tesseract من نوع LSTM؛ وفي ملفات PDF القائمة على النص يُقرأ النص المضمّن مباشرة. تحمل الكلمات المُعرَّفة مواضع بالبكسل، تُجمَّع في أسطر مرئية حسب المحاذاة الرأسية وتُرتَّب من اليسار إلى اليمين. داخل كل سطر تُقاس المسافة بين الكلمات، وتصبح أي فجوة أوسع بشكل ملحوظ من المسافة العادية بين الكلمات حدًا للعمود، فتقسم السطر إلى عدة حقول. ثم تُسلسَل الحقول بصيغة CSV وفق RFC 4180 — مع الإحاطة بعلامات الاقتباس والتهريب عند الحاجة، ووصل الصفوف بـ CRLF، وإضافة علامة BOM بترميز UTF-8 في البداية — وتُقدَّم كملف .csv قابل للتنزيل.
الميزات
- إخراج CSV قياسي وفق RFC 4180 مع إحاطة صحيحة بعلامات الاقتباس وتهريب صحيح
- تعرّف ضوئي تلقائي لملفات PDF الممسوحة ضوئيًا التي تحتوي على صور فقط
- يتحول كل سطر في الصفحة إلى صف CSV
- تقسيم الأعمدة بأفضل جهد استنادًا إلى الفجوات الواسعة بين القيم
- علامة BOM بترميز UTF-8 لكي يقرأ Excel نظام يونيكود بشكل صحيح
- صف فارغ اختياري بين الصفحات
- 100% داخل المتصفح — لا يغادر ملفك جهازك أبدًا
كيفية الاستخدام
- 1
ارفع ملف PDF
اسحب أي ملف PDF إلى منطقة الرفع. تُقرأ ملفات PDF القائمة على النص مباشرة؛ أما الصفحات الممسوحة ضوئيًا أو المصوّرة فتُكتشف وتُعالَج بالتعرف الضوئي تلقائيًا.
- 2
اختر معالجة الأعمدة
أبقِ تقسيم الأعمدة مفعّلًا لتقسيم كل سطر إلى حقول عند الفجوات الواسعة، أو أوقفه للإبقاء على كل سطر كامل كحقل واحد. ويمكنك اختياريًا إضافة صف فارغ بين الصفحات.
- 3
حوّل إلى CSV
انقر على تحويل إلى CSV. يُستخرج النص (مع التعرف الضوئي عند الحاجة) ويُكتب كصفوف مفصولة بفواصل مع التهريب المناسب.
- 4
افتح الملف أو استورده
نزّل ملف .csv وافتحه في Excel أو Google Sheets أو LibreOffice — أو استورده إلى قاعدة بيانات أو مرّره إلى برنامج نصي.
حالات الاستخدام الشائعة
مسارات معالجة البيانات
استخرج النص الجدولي من ملفات PDF إلى CSV ليمكن استيراده إلى قواعد البيانات أو أدوات ذكاء الأعمال أو برامج معالجة البيانات.
كشوف الحسابات ودفاتر الأستاذ
حوّل أسطر المعاملات من كشف حساب PDF إلى صفوف CSV جاهزة لبرامج المحاسبة أو جدول بيانات.
المستندات الممسوحة ضوئيًا
تعرّف على النص من الصفحات الممسوحة ضوئيًا أو المصوّرة وصدّره بصيغة CSV، مع فصل الأعمدة حيث كانت توجد مسافات واضحة في الأصل.
تصدير خفيف ومحمول
استخدم CSV عندما تريد تنسيق نص عادي عالميًا يُفتح في كل مكان ويسهل مقارنته وإصدار نسخه وأتمتته.
نصائح وأفضل الممارسات
- تقسيم الأعمدة هو أسلوب تقريبي بأفضل جهد يعتمد على المسافات، وليس اكتشافًا حقيقيًا للجداول — راجع النتيجة قبل الاستيراد
- تساعد علامة BOM بترميز UTF-8 برنامج Excel على عرض النص المشكَّل وغير اللاتيني؛ وقد تحتاج بعض المحلّلات الصارمة إلى إزالة علامة BOM
- بالنسبة لملفات PDF الممسوحة ضوئيًا، تنتج عمليات المسح الأعلى جودة تعرفًا ضوئيًا أكثر دقة وأعمدة أنظف
- أوقف تقسيم الأعمدة عندما تريد الإبقاء على كل سطر كحقل واحد