استخراج البيانات باستخدام كشط الويب
تعرف على كيفية استخراج البيانات عبر الإنترنت من مواقع الويب الموجودة في جميع أنحاء الإنترنت.
سنغطي ما يلي...
مقدمة عن كشط الويب
استخراج البيانات من صفحات الويب هو طريقة لاستخراج البيانات من صفحات الويب. باستخدامه، يمكننا استخراج البيانات بصيغ HTML أو XML أو JSON من صفحات الويب، وتحليلها، واستخراج البيانات ذات الصلة. يمكننا إنشاء نصوص برمجية لاسترجاع البيانات وتحليلها تلقائيًا من صفحات الويب وفقًا لجدول زمني، واستخراج البيانات عبر الإنترنت، مثل التعليقات من المنتديات أو منصات التواصل الاجتماعي، أو أحدث أسعار المنتجات من أمازون.
يمكن أيضًا استخدام كشط الويب كعملية لمرة واحدة لاستخراج البيانات ذات الصلة. له تطبيقات واسعة، بما في ذلك استخراج البيانات، وتحليلها، وأبحاث السوق عبر الإنترنت، وغيرها. وهو أداة مفيدة لاستخراج البيانات من مواقع الويب التي لا توفر API).
Python أداة رائعة لاستخراج بيانات الويب. تحتوي على مكتبتين رائعتين لاستخراج بيانات الويب، تُسمى requests
و Beautifulsoup
.
مكتبة requests
requests
تتيح لنا المكتبة إرسال طلبات HTTP إلى مواقع الويب ومعالجة استجابة. أكثر أنواع طلب شيوعًا لهذا الغرض هو طلبget
. نستخدم طلب get
لاسترداد المعلومات من خادم أو خدمة. في حال نجاح طلب ، يُعيد خادم استجابة تتضمن البيانات التي طلبناها، عادةً بصيغة HTML/JSON.
مكتبة Beautifulsoup
بعد إنشاء طلب ناجح وجلب استجابة باستخدام مكتبة requests
، يمكننا استخدام مكتبة Beatifulsoup
لتحليل المحتوى المرتجع والتنقل فيه.
رموز الاستجابة
بعد إرسال طلب get
إلى خادم، سيتم إرجاع رمز استجابة . توضح هذه الرموز حالة طلب HTTP. تُجمّع رموز استجابة في فئات ورموز متماثلة في النطاق.
تشير رموز الاستجابة بين 200 و299 إلى النجاح، وتشير الرموز بين 300 و399 إلى إعادة التوجيه، وتشير الرموز بين 400 و499 إلى خطأ في جانب العميل، وتشير الرموز بين 500 و599 إلى خطأ في جانب الخادم . ...