...

/

استراتيجيات الاسترجاع: برامج تحميل المستندات الشائعة

استراتيجيات الاسترجاع: برامج تحميل المستندات الشائعة

تعرف على كيفية استخدام محملات المستندات غير المتصلة بالإنترنت LangChain.

سنغطي ما يلي...

Document loaders

تلعب أدوات تحميل المستندات في LangChain دورًا أساسيًا في دمج مصادر البيانات المتنوعة في أطر عمل الدردشة الآلية وتطبيقات الذكاء الاصطناعي الأخرى.

Press + to interact
RAG workflow: Document loaders
RAG workflow: Document loaders

تُسهّل هذه الأدوات استيراد ومعالجة البيانات المُهيكلة وغير المُهيكلة من مجموعة متنوعة من أنواع المستندات، بما في ذلك CSV وJSON والنصوص وتنسيقات Microsoft Office وملفات PDF. ومن خلال توفير سهولة الوصول إلى هذا التنوع من مُدخلات البيانات، تُوسّع LangChain نطاق استخدامات المُطورين المُحتملة.

Types of document loaders

سنقوم الآن بتجربة عدد قليل من محملات المستندات LangChain العديدة.

CSV loader

يوضح الكود أدناه كيفية تحميل وعرض البيانات من ملفات القيم المفصولة بفواصل (CSV) باستخدام مُحمِّل مُحدد من مكتبة langchain_community . ملفات CSV هي تنسيق شائع لتخزين البيانات الجدولية، حيث يُمثل كل سطر صفًا في الجدول، وتُفصل الحقول بفواصل. يتيح هذا للمستخدمين تحميل قواعد بيانات CSV وتحليلها باستخدام برامج الدردشة الآلية واللغة الطبيعية.

قم بتشغيل الكود أدناه لتجربة الوحدة:

Press + to interact
# Import libraries
from langchain_community.document_loaders import CSVLoader
# Define the path to the file and load the file
file_path = '/usercode/GDP.csv'
loader = CSVLoader(file_path=file_path)
data = loader.load()
# Print the data
for content in data:
print(content.page_content)
print('-'*80)

في هذا الكود نقوم بالخطوات التالية:

  • السطرين 1-2: نقوم باستيراد CSVLoader من وحدة langchain_community.document_loaders.csv_loader .

  • الأسطر من ٤ إلى ٧: نُحدد مسار الملف المطلوب، ونستخدم CSVLoader لتحميله. نستخدم loader.load() لإرجاع البيانات المُحمّلة، والتي تُخزّن بعد ذلك في متغير data.

  • الأسطر 9-12: نقوم بتكرار البيانات المحملة، ونطبع محتوى الصفحة.

JSON loader

يوضح الكود أدناه كيفية تحميل وعرض البيانات من ملفات JSON (ترميز كائنات JavaScript )، وتحديدًا باستخدام صيغة JSONLines . تُستخدم صيغة JSON على نطاق واسع لتخزين البيانات وتبادلها بفضل نصها السهل القراءة، والذي يُمكنه تمثيل هياكل بيانات معقدة بأزواج من السمات والقيم والمصفوفات. تُعزز JSONLines هذا من خلال ضمان أن كل سطر في الملف هو كيان JSON صالح، مما يُسهّل التعامل مع مجموعات البيانات الكبيرة وتدفق البيانات. يستخدم ...