...

/

تنظيف البيانات باستخدام Apache Spark: البيانات المفقودة

تنظيف البيانات باستخدام Apache Spark: البيانات المفقودة

تعرف على كيفية تحديد أنواع مختلفة من القيم المفقودة وكيفية التعامل معها.

سنغطي ما يلي...

عند جمع البيانات من مصادر متعددة، غالبًا ما نجد أخطاءً وتناقضاتٍ وعدم دقة. خلال مرحلة تنظيف البيانات، نركز على العثور على البيانات المكررة وإزالتها ومعالجة القيم المفقودة.

قد تبدو كلتا العمليتين سهلتين من الناحية النظرية، ولكن من الناحية العملية، تتطلبان قدرًا كبيرًا من سياق العمل وفهم البيانات والأعمال قبل أن نتمكن من اتخاذ أي إجراء.

التعامل مع القيم المفقودة

عندما نواجه قيمًا مفقودة، أول ما يجب علينا فعله هو أن نسأل أنفسنا عن سبب نقص البيانات. ما مقدار البيانات المفقودة؟ وهل يُمكننا تعويضها؟

قد يكون هناك عدد لا يحصى من الأسباب التي تؤدي إلى فقدان البيانات:

  • خطأ بشري (حذف غير مقصود)

  • الأخطاء الفنية (انقطاعات الخدمة في منتصف تحديث قاعدة البيانات)

  • حتى عاصفة رعدية بالقرب من جهاز استشعاري

أسهل طريقة عند فقدان قيمة هي حذف السجل أو العمود بأكمله. مع ذلك، قد تكون البيانات مهمة، ويجب الاحتفاظ بأكبر قدر ممكن منها. إذا استطعنا معرفة سبب فقدان البيانات، فقد نتمكن من استعادتها واستبدالها قيمة أخرى.

أنواع القيم المفقودة

بشكل عام، هناك ثلاثة أنواع/أسباب قد تؤدي إلى فقدان نقطة بيانات:

مفقود تمامًا عشوائيًا (MCAR)

يشير هذا إلى موقف حيث يكون احتمال فقدان نقطة بيانات مستقلاً ...