استخراج النص من PDF
استخرج كل سطر نصي من مستندات PDF لاستخدامها في تطبيقات أخرى. قم بتصديرها كنص عادي للنسخ البسيط، أو Markdown مع الحفاظ على هيكل الصفحة، أو JSON مفصل يحتوي على مواضع الكلمات والخطوط وقيم حقول النماذج. مثالي لعمليات نقل المحتوى، وتحليل النص، وإمكانية الوصول، وسير عمل استخراج البيانات.
ماذا تفعل هذه الأداة؟
أداة استخراج النص تسحب محتوى النص من مستندات PDF بثلاث صيغ مفيدة. يوفر إخراج النص العادي نصًا نظيفًا جاهزًا للنسخ واللصق دون تنسيق. يحافظ تنسيق Markdown على هيكل الصفحة مع العناوين وإشارات التنسيق الأساسية. يوفر تنسيق JSON استخراجًا مفصلًا بما في ذلك صناديق حدود الكلمات، ومعلومات الخطوط، وأحجام الخطوط، وقيم حقول AcroForm لمعالجة متقدمة واحتياجات استخراج البيانات.
كيف تعمل
باستخدام قدرات استخراج النص في MuPDF، تقوم الأداة بتحليل تدفقات محتوى PDF لتحديد عناصر النص. تقوم بربط بيانات الرموز (glyphs) بأحرف Unicode، واستخراج معلومات التوضيح، وتحديد خصائص الخط. لإخراج JSON، توفر مصفوفات لكل صفحة تحتوي على كتل نصية مع إحداثيات صناديق الحدود، مما يتيح تحديد موقع النص بدقة. يتم اكتشاف حقول النماذج من خلال تحليل AcroForm، مع استخراج أسماء الحقول، وأنواعها، وقيمها الحالية وإدراجها في الإخراج.
الميزات
- ثلاث صيغ إخراج: نص عادي، Markdown، JSON منظم
- يحتوي JSON على صناديق حدود لكل كلمة، وأسماء الخطوط، وأحجام الخطوط
- يسجل أسماء حقول AcroForm، وأنواعها، وقيمها الحالية
- تفصيل على مستوى الصفحة في جميع الصيغ
- معاينة حية قبل التنزيل
- يدعم التخطيطات متعددة الأعمدة والمعقدة
- يحافظ على ترتيب قراءة النص
كيفية الاستخدام
- 1
قم برفع ملف PDF
اسحب ملف PDF يحتوي على نص (وليس مسح ضوئي للصورة فقط) إلى منطقة الإفلات. تقوم الأداة بتحليل المستند وإعداد الاستخراج.
- 2
اختر صيغة الإخراج
حدد النص العادي للبساطة في النسخ واللصق، أو Markdown للنص المنظم مع عناوين الصفحات، أو JSON للمعالجة البرمجية مع بيانات الموقع.
- 3
راجع المعاينة
يظهر لوحة المعاينة عينة من النص المستخرج. راجع للتأكد من أن الاستخراج التقط النص بشكل صحيح.
- 4
قم بتنزيل ملف النص
انقر على 'استخراج' لتوليد ملف الإخراج. قم بتنزيل ملف .txt أو .md أو .json اعتمادًا على الصيغة المحددة.
حالات الاستخدام الشائعة
نقل المحتوى إلى منصات الويب
استخرج النص من تقارير PDF، أو أوراق بيضاء، أو توثيق لإعادة نشره على المواقع الإلكترونية أو أنظمة إدارة المحتوى.
استخراج البيانات من النماذج
استخدم إخراج JSON لاستخراج قيم النماذج المملوءة في PDF بشكل برمجي لاستيرادها إلى قاعدة البيانات أو معالجة السجلات.
تحليل النص ومعالجة اللغات الطبيعية
استخرج النص لمعالجة اللغات الطبيعية، وتحليل المشاعر، واستخراج الكلمات المفتاحية، أو تحضير بيانات التدريب لتعلم الآلة.
بدائل نصية لإمكانية الوصول
استخرج النص من ملفات PDF لإنشاء إصدارات HTML قابلة للوصول أو محتوى مناسب لقارئات الشاشة للمستخدمين ذوي الإعاقات.
نصائح وأفضل الممارسات
- النص العادي يعمل بشكل أفضل مع المستندات البسيطة ذات التخطيط العمودي الواحد
- يساعد تنسيق Markdown في الحفاظ على هيكل المستند عند التحويل إلى محتوى ويب
- إخراج JSON مثالي للمطورين الذين يبنيون خطوط أنابيب استخراج نص آلي
- للمسح الضوئي للمستندات، تأكد من تطبيق OCR أولاً — ملفات PDF التي تحتوي على صور فقط لن تحتوي على نص قابل للاستخراج