استخراج البيانات المنظمة في LlamaIndex

تعلم كيفية استخراج البيانات المنظمة من نص غير منظم باستخدام LlamaIndex، ومخططات Pydantic، والتحليل المدعوم من LLM.

سنغطي ما يلي...

الخطوة 1: البدء بالمخطط الأساسي
تحسين المخطط باستخدام أوصاف الحقول
- جربها بنفسك: مع أوصاف الحقول
مقدمة عن الهياكل المتداخلة
- الاستخراج باستخدام المخطط المتداخل
- جربه بنفسك: مخطط متداخل لهيكل السيرة الذاتية الواقعي
خطأ متوقع
التعامل مع عدم تطابق المخططات في استخراج البيانات المنظمة
- التحديث 1: تعديل المخطط للسماح بالحقول الاختيارية
- التحديث 2: تخفيف التحقق عند استدعاء LLM المنظم
حاول ثانية
نصيحة: تحسين الموثوقية في الاستخراج المنظم
فوائد استخراج البيانات المنظمة
خاتمة

نصادف نصوصًا غير منظمة يوميًا، في رسائل البريد الإلكتروني والتقارير والمقالات الإخبارية والسير الذاتية. وبينما نستطيع نحن البشر فهم هذه النصوص وتفسيرها بسهولة، تحتاج الآلات إلى هيكلية لفهمها. على سبيل المثال، قد تتضمن السيرة الذاتية اسم الشخص وتاريخه المهني ومهاراته ومؤهلاته العلمية، كل ذلك في فقرة مترابطة أو متناثرة في أقسام مختلفة.

تخيل الآن أنك تُطوّر مساعدًا ذكيًا لمساعدة مدير التوظيف في فحص مئات السير الذاتية. ستستغرق قراءة كل وثيقة يدويًا ساعات. ولكن ماذا لو استطعنا تعليم نظامنا استخراج معلومات مُهيكلة - مثل الاسم والبريد الإلكتروني والخبرة - من كل سيرة ذاتية؟

وهنا يأتي دور استخراج البيانات المنظمة. وباستخدام LlamaIndex، يمكننا القيام بذلك باستخدام نماذج اللغة الكبيرة (LLMs)، جنبًا إلى جنب مع أدوات لتوجيه تنسيق إخراج باستخدام المخططات.

في هذا الدرس، سنبدأ بمخطط أساسي لاستخراج الحقول البسيطة، ثم تحسينه باستخدام أوصاف الحقول، وأخيرًا، التوسع إلى بنية متداخلة أكثر واقعية لسجلات الوظائف والتعليم.

الخطوة 1: البدء بالمخطط الأساسي

لنبدأ بالنسخة الأبسط. سنستخرج بعض الحقول الأساسية فقط من السيرة الذاتية، مثل الاسم، والبريد الإلكتروني، ورقم الهاتف، والمهارات.

تحديد المخطط

سنستخدم Pydantic ، وهي مكتبة Python تُمكّننا من تعريف نماذج بيانات باستخدام فئات Python عادية. تُخبر هذه النماذج طالب الماجستير في القانون (LLM) بنوع البيانات المُهيكلة التي نريدها بالمقابل.

BaseModel هي فئة من بايدانتيك تُستخدم لتعريف نماذج البيانات المنظمة. تتيح لنا تحديد الحقول التي نريد أن يستخرجها برنامج إدارة قواعد البيانات (LLM) مع أنواعها المتوقعة.
في بلدناResumeData المخطط، نقوم بتحديد أربعة حقول لاستخراجها من السيرة الذاتية:name ،email ،phone ، وقائمة منskills في الوقت الحالي، سنحافظ على البنية البسيطة للتركيز على كيفية عمل الاستخراج.

الخطوة 2: تحميل مستند السيرة الذاتية

في هذا الدرس، سنفترض أن لدينا ملف سيرة ذاتية (بصيغة PDF) نريد استخراج المعلومات منه. يوفر LlamaIndex أدوات مدمجة لتحميل هذه الملفات وتحليلها.

1.ابدء

2.المفاهيم الأساسية واستخدام برامج الماجستير في القانون

3.بناء مسار RAG

Project

4.استخراج المخرجات المنظمة من نماذج التعلم القانوني

5.الوكلاء وسير العمل

6.مراقبة وتقييم طلبات الحصول على درجة الماجستير في القانون

7.بناء تطبيقات واقعية باستخدام LlamaIndex

8.الخلاصة

استخراج البيانات المنظمة في LlamaIndex

الخطوة 1: البدء بالمخطط الأساسي

تحديد المخطط

الخطوة 2: تحميل مستند السيرة الذاتية

الخطوة 3: استخراج البيانات المنظمة باستخدام LLM