...
/استراتيجيات الاسترجاع: برامج تحميل المستندات الشائعة
استراتيجيات الاسترجاع: برامج تحميل المستندات الشائعة
تعرف على كيفية استخدام محملات المستندات غير المتصلة بالإنترنت LangChain.
سنغطي ما يلي...
Document loaders
تلعب أدوات تحميل المستندات في LangChain دورًا أساسيًا في دمج مصادر البيانات المتنوعة في أطر عمل الدردشة الآلية وتطبيقات الذكاء الاصطناعي الأخرى.
تُسهّل هذه الأدوات استيراد ومعالجة البيانات المُهيكلة وغير المُهيكلة من مجموعة متنوعة من أنواع المستندات، بما في ذلك CSV وJSON والنصوص وتنسيقات Microsoft Office وملفات PDF. ومن خلال توفير سهولة الوصول إلى هذا التنوع من مُدخلات البيانات، تُوسّع LangChain نطاق استخدامات المُطورين المُحتملة.
Types of document loaders
سنقوم الآن بتجربة عدد قليل من محملات المستندات LangChain العديدة.
CSV loader
يوضح الكود أدناه كيفية تحميل وعرض البيانات من ملفات القيم المفصولة بفواصل (CSV) باستخدام مُحمِّل مُحدد من مكتبة langchain_community
. ملفات CSV هي تنسيق شائع لتخزين البيانات الجدولية، حيث يُمثل كل سطر صفًا في الجدول، وتُفصل الحقول بفواصل. يتيح هذا للمستخدمين تحميل قواعد بيانات CSV وتحليلها باستخدام برامج الدردشة الآلية واللغة الطبيعية.
قم بتشغيل الكود أدناه لتجربة الوحدة:
# Import librariesfrom langchain_community.document_loaders import CSVLoader# Define the path to the file and load the filefile_path = '/usercode/GDP.csv'loader = CSVLoader(file_path=file_path)data = loader.load()# Print the datafor content in data:print(content.page_content)print('-'*80)
في هذا الكود نقوم بالخطوات التالية:
السطرين 1-2: نقوم باستيراد
CSVLoader
من وحدةlangchain_community.document_loaders.csv_loader
.الأسطر من ٤ إلى ٧: نُحدد مسار الملف المطلوب، ونستخدم
CSVLoader
لتحميله. نستخدمloader.load()
لإرجاع البيانات المُحمّلة، والتي تُخزّن بعد ذلك في متغير data.الأسطر 9-12: نقوم بتكرار البيانات المحملة، ونطبع محتوى الصفحة.
JSON loader
يوضح الكود أدناه كيفية تحميل وعرض البيانات من ملفات JSON (ترميز كائنات JavaScript )، وتحديدًا باستخدام صيغة JSONLines
. تُستخدم صيغة JSON على نطاق واسع لتخزين البيانات وتبادلها بفضل نصها السهل القراءة، والذي يُمكنه تمثيل هياكل بيانات معقدة بأزواج من السمات والقيم والمصفوفات. تُعزز JSONLines
هذا من خلال ضمان أن كل سطر في الملف هو كيان JSON صالح، مما يُسهّل التعامل مع مجموعات البيانات الكبيرة وتدفق البيانات. يستخدم ...