...
/استراتيجيات الاسترجاع: برامج تحميل المستندات الشائعة
استراتيجيات الاسترجاع: برامج تحميل المستندات الشائعة
تعرف على كيفية استخدام محملات المستندات غير المتصلة بالإنترنت LangChain.
سنغطي ما يلي...
محملات المستندات
تلعب أدوات تحميل المستندات في LangChain دورًا أساسيًا في دمج مصادر البيانات المتنوعة في أطر عمل الدردشة الآلية وتطبيقات الذكاء الاصطناعي الأخرى.
تُسهّل هذه الأدوات استيراد ومعالجة البيانات المُهيكلة وغير المُهيكلة من مجموعة متنوعة من أنواع المستندات، بما في ذلك CSV وJSON والنصوص وتنسيقات Microsoft Office وملفات PDF. ومن خلال توفير سهولة الوصول إلى هذا التنوع من مُدخلات البيانات، تُوسّع LangChain نطاق استخدامات المُطورين المُحتملة.
أنواع محملات المستندات
سنقوم الآن بتجربة عدد قليل من محملات المستندات LangChain العديدة.
محمل CSV
يوضح الكود أدناه كيفية تحميل وعرض البيانات من ملفات القيم المنفصلة بفاصلة (CSV) باستخدام محمل محدد منlangchain_community
ملفات CSV هي تنسيق شائع لتخزين البيانات الجدولية، حيث يمثل كل سطر صفًا في الجدول، وتُفصل الحقول بفواصل. يتيح هذا للمستخدمين تحميل قواعد بيانات CSV وتحليلها باستخدام برامج الدردشة الآلية واللغة الطبيعية.
قم بتشغيل الكود أدناه لتجربة الوحدة:
# Import librariesfrom langchain_community.document_loaders import CSVLoader# Define the path to the file and load the filefile_path = '/usercode/GDP.csv'loader = CSVLoader(file_path=file_path)data = loader.load()# Print the datafor content in data:print(content.page_content)print('-'*80)
في هذا الكود نقوم بالخطوات التالية:
السطرين 1-2: نقوم باستيراد
CSVLoader
منlangchain_community.document_loaders.csv_loader
وحدة.الأسطر 4-7: نقوم بتحديد المسار إلى الملف المطلوب، ونستخدم
CSVLoader
لتحميل الملف. نستخدمloader.load()
لإرجاع البيانات المحملة، والتي يتم تخزينها بعد ذلك في متغير data.الأسطر 9-12: نقوم بتكرار البيانات المحملة، ونطبع محتوى الصفحة.
محمل JSON
يوضح الكود أدناه كيفية تحميل وعرض البيانات من ملفات JSON (ترميز كائنات JavaScript )، باستخدام على وجه التحديدJSONLines
JSON هو تنسيق يستخدم على نطاق واسع لتخزين وتبادل البيانات بسبب نصه القابل للقراءة من قبل الإنسان والذي يمكنه تمثيل هياكل البيانات المعقدة باستخدام أزواج القيم والسمات والمصفوفات.JSONLines
يُعزز ذلك من خلال ضمان أن كل سطر في ...