UltraConvert
أدوات PDF

استخراج النص من PDF

استخرج كل سطر نصي من مستندات PDF لاستخدامها في تطبيقات أخرى. قم بتصديرها كنص عادي للنسخ البسيط، أو Markdown مع الحفاظ على هيكل الصفحة، أو JSON مفصل يحتوي على مواضع الكلمات والخطوط وقيم حقول النماذج. مثالي لعمليات نقل المحتوى، وتحليل النص، وإمكانية الوصول، وسير عمل استخراج البيانات.

ماذا تفعل هذه الأداة؟

أداة استخراج النص تسحب محتوى النص من مستندات PDF بثلاث صيغ مفيدة. يوفر إخراج النص العادي نصًا نظيفًا جاهزًا للنسخ واللصق دون تنسيق. يحافظ تنسيق Markdown على هيكل الصفحة مع العناوين وإشارات التنسيق الأساسية. يوفر تنسيق JSON استخراجًا مفصلًا بما في ذلك صناديق حدود الكلمات، ومعلومات الخطوط، وأحجام الخطوط، وقيم حقول AcroForm لمعالجة متقدمة واحتياجات استخراج البيانات.

كيف تعمل

باستخدام قدرات استخراج النص في MuPDF، تقوم الأداة بتحليل تدفقات محتوى PDF لتحديد عناصر النص. تقوم بربط بيانات الرموز (glyphs) بأحرف Unicode، واستخراج معلومات التوضيح، وتحديد خصائص الخط. لإخراج JSON، توفر مصفوفات لكل صفحة تحتوي على كتل نصية مع إحداثيات صناديق الحدود، مما يتيح تحديد موقع النص بدقة. يتم اكتشاف حقول النماذج من خلال تحليل AcroForm، مع استخراج أسماء الحقول، وأنواعها، وقيمها الحالية وإدراجها في الإخراج.

الميزات

كيفية الاستخدام

  1. 1

    قم برفع ملف PDF

    اسحب ملف PDF يحتوي على نص (وليس مسح ضوئي للصورة فقط) إلى منطقة الإفلات. تقوم الأداة بتحليل المستند وإعداد الاستخراج.

  2. 2

    اختر صيغة الإخراج

    حدد النص العادي للبساطة في النسخ واللصق، أو Markdown للنص المنظم مع عناوين الصفحات، أو JSON للمعالجة البرمجية مع بيانات الموقع.

  3. 3

    راجع المعاينة

    يظهر لوحة المعاينة عينة من النص المستخرج. راجع للتأكد من أن الاستخراج التقط النص بشكل صحيح.

  4. 4

    قم بتنزيل ملف النص

    انقر على 'استخراج' لتوليد ملف الإخراج. قم بتنزيل ملف .txt أو .md أو .json اعتمادًا على الصيغة المحددة.

حالات الاستخدام الشائعة

نقل المحتوى إلى منصات الويب

استخرج النص من تقارير PDF، أو أوراق بيضاء، أو توثيق لإعادة نشره على المواقع الإلكترونية أو أنظمة إدارة المحتوى.

استخراج البيانات من النماذج

استخدم إخراج JSON لاستخراج قيم النماذج المملوءة في PDF بشكل برمجي لاستيرادها إلى قاعدة البيانات أو معالجة السجلات.

تحليل النص ومعالجة اللغات الطبيعية

استخرج النص لمعالجة اللغات الطبيعية، وتحليل المشاعر، واستخراج الكلمات المفتاحية، أو تحضير بيانات التدريب لتعلم الآلة.

بدائل نصية لإمكانية الوصول

استخرج النص من ملفات PDF لإنشاء إصدارات HTML قابلة للوصول أو محتوى مناسب لقارئات الشاشة للمستخدمين ذوي الإعاقات.

نصائح وأفضل الممارسات

الأسئلة المتكررة

هل سيعمل مع ملفات PDF الممسوحة ضوئيًا؟
فقط إذا تم تطبيق OCR (التعرف الضوئي على الحروف) على المسح الضوئي. تحتوي المسوح الضوئية للصورة فقط على بيانات نصية لاستخراجها. أداة استخراج النص تقرأ معلومات النص المضمنة، وليس محتوى الصورة المرئي.
لماذا يكون إخراجتي فارغًا أو مشوشًا؟
تقوم بعض ملفات PDF بتشفير النص كرموز فهارس مخصصة بدون خرائط أحرف Unicode صحيحة. لا يمكن عكس هذه الرموز إلى نص مقروء. هذا شائع في ملفات PDF ذات الخطوط الفرعية المضمنة التي تفتقر إلى جداول الترميز الصحيحة.
ماذا يُدرج في إخراج JSON؟
يحتوي JSON على بيانات لكل صفحة بما في ذلك محتوى النص الخام، ومصفوفة من الكتل على مستوى الكلمة مع إحداثيات صناديق الحدود (x، y، العرض، الارتفاع)، واسم الخط وحجمه لكل كتلة، وأي حقول AcroForm مع أسمائها، وأنواعها، وقيمها.
هل يحافظ الاستخراج على التنسيق؟
النص العادي يزيل جميع التنسيقات. يحافظ Markdown على هيكل الصفحة والتسلسل الهرمي الأساسي. يحافظ JSON على بيانات الموقع مما يسمح لك بإعادة بناء التخطيط برمجيًا. قد يتطلب التنسيق المعقد مثل الجداول تنظيفًا يدويًا.

أدوات ذات صلة