...

/

استراتيجيات الاسترجاع: برامج تحميل مستندات الويب والوسائط المتعددة

استراتيجيات الاسترجاع: برامج تحميل مستندات الويب والوسائط المتعددة

تعرف على كيفية استخدام محملات المستندات عبر الإنترنت LangChain.

سنغطي ما يلي...

محملات المستندات

يتم استخدام أدوات تحميل المستندات أو الموصلات لتحميل المستندات أو توصيلها من العديد من المصادر المختلفة.

Press + to interact
RAG workflow: Document loaders
RAG workflow: Document loaders

توفر LangChain أكثر من 100 أداة تحميل مستندات مختلفة، بالإضافة إلى تكاملات مع مزودي خدمات رئيسيين آخرين في هذا المجال، مثل Arxiv وAWS وAzure وDropbox و GitHub وGoogle وSnowflake وStripe وTelegram وTwitter وWikipedia وYouTube. توفر LangChain تكاملات لتحميل جميع أنواع المستندات، مثلhtml ،pdf ،csv ،xlsx ،docx ، والرمز من جميع أنواع المواقع، مثل دلاء S3 الخاصة ومواقع الويب العامة.

Press + to interact
LangChain ecosystem
LangChain ecosystem

صُممت برامج تحميل المستندات لإدارة المستندات المهيكلة وغير المهيكلة. تلتزم المستندات المهيكلة، مثل ملفات pandas DataFrames وExcel، بتنسيق أو هيكل أو مخطط محدد، مما يسهل البحث فيها وتنظيمها في حقل ثابت داخل السجل أو الملف. يُخزن هذا النوع من المستندات عادةً في قواعد بيانات علائقية أو جداول بيانات، حيث يُحدد النموذج كيفية تخزين البيانات ومعالجتها والوصول إليها، مع تصنيف كل جزء من البيانات وتخزينه في هيكله المُحدد مسبقًا. من ناحية أخرى، لا تحتوي المستندات غير المهيكلة، مثل ملفات Word و GitHub ، على نموذج بيانات مُحدد مسبقًا أو غير مُنظمة بطريقة مُحددة مسبقًا، وقد تتضمن تنسيقات متعددة الوسائط، تشمل النصوص والصور ومقاطع الفيديو. عادةً ما يكون التعامل مع المستندات المهيكلة أكثر مباشرة، بينما تتطلب المستندات غير المهيكلة عمليات تحويل وتعديلات مُحددة لمعالجتها بفعالية.

أنواع محملات المستندات

يتطلب تطوير روبوتات الدردشة المتقدمة دمج مصادر بيانات متنوعة لتحسين الأداء وضمان ملاءمتها. يوفر إطار عمل LangChain مجموعة متنوعة من أدوات تحميل المستندات المصممة لتسهيل هذا التكامل من خلال استخراج ومعالجة البيانات من أنواع مختلفة من المستندات والوسائط. تُمكّن هذه الأدوات روبوتات الدردشة من الوصول إلى المعلومات واستخدامها من صفحات الويب ورسائل البريد الإلكتروني والموسوعات وحتى نصوص الفيديو، مع تكييف استجاباتها لتلبية احتياجات المستخدم المحددة. فيما يلي جدول يوضح أنواع أدوات تحميل المستندات المختلفة المتوفرة في LangChain:

Loader Type

Description

Primary Use Case

HTML Loader

Extracts text and other elements from HTML documents using the UnstructuredHTMLLoader

Used for scraping specific information from web pages to provide up-to-date data such as stock prices

Website Loader

Utilizes the WebBaseLoader to extract textual content from webpages

Ideal for content analysis, web scraping, and data mining from various websites

Email Loader

Uses the UnstructuredEmailLoader to extract data from email files, including headers and attachments

Facilitates the analysis or automated processing of email content for generating responses

Wikipedia Loader

Employs the WikipediaLoader to search for and retrieve content from Wikipedia

Allows chatbots to fact-check and reference information from Wikipedia for accurate user responses

YouTube Transcripts Loader

Accesses and retrieves text from YouTube video transcripts via the YoutubeLoader

Useful for extracting audio content as text for accessibility, content analysis, and educational use

دعونا الآن ننتقل خطوة أخرى إلى كل من أدوات التحميل المستندة إلى الويب الخاصة بـ LangChain:

محمل HTML

يوضح الكود أدناه كيفية تحميل وعرض البيانات من مستندات HTML. لغة ترميز النص التشعبي (HTML) هي لغة الترميز القياسية المستخدمة لإنشاء وتصميم المستندات المخصصة للعرض في متصفحات الويب. وهي تشكل أساس معظم صفحات الويب، حيث تُضمّن النصوص والروابط والصور وعناصر أخرى بتنسيق منظم. لتسهيل معالجة المحتوى داخل ملفات HTML،UnstructuredHTMLLoader يوفر مجتمع LangChain طريقةً سهلةً لاستخراج النصوص والمعلومات ...