مراحل خط أنابيب ETL
تعرف على المراحل المختلفة لخط أنابيب ETL والنموذج الذي ظهر مؤخرًا.
سنغطي ما يلي...
يستخرج
الخطوة الأولى في أي خط أنابيب استخراج وتحويل وتحميل هي خطوة الاستخراج . أولاً، نجمع البيانات ونستخرجها. يمكن العثور على البيانات المستخدمة للتحليلات في مصادر خارجية وداخلية.
يمكن للشركة استخراج البيانات من مصادر خارجية، مثل أجهزة استشعار إنترنت الأشياء (IoT)، وبيانات مواقع التواصل الاجتماعي، API REST، والبيانات الإحصائية من المواقع الحكومية، وجمع البيانات من الويب، وغيرها الكثير. كما يمكن للشركات استخراج البيانات من مصادر داخلية، مثل قاعدة بيانات الإنتاج، أو مستودع البيانات، أو من التطبيقات والخدمات باستخدام API REST.
يعتمد اختيار مصدر البيانات على حالة الاستخدام. على سبيل المثال، إذا أرادت شركة تحليل نشاط مستخدميها، فستختار مصدرًا آخر غير مصدر البيانات الخارجي ؛ إذ ستسحب بيانات نشاط السجلات من أنظمتها الداخلية .
يمكن للشركات أيضًا دمج البيانات من مصادر خارجية أو داخلية متعددة وفي تنسيقات متعددة، مثل CSV وTSV وJSON وXML وما إلى ذلك. ولهذا السبب تسمى الخطوة التالية بالتحويل .
تحويل
قبل تحميل البيانات، عادةً ما نضطر إلى معالجتها بطريقة أو بأخرى. ويمكن لمعالجة البيانات أن تحقق أهدافًا عديدة.
أولاً، لتحميل البيانات، يجب أن تكون بتنسيق يفهمه المستخدم. على سبيل المثال، قبل تحميل البيانات إلى قاعدة بيانات علائقية، يجب أن تكون البيانات متسقة، وجدولية، ومنظمة، وخالية من أي بيانات مفقودة أو مكررة، ومتوافقة مع هيكلية الجداول في قاعدة البيانات.
أو قد نحتاج إلى تغيير تنسيق البيانات لتحميلها. على سبيل المثال، قد نستخرج البيانات بصيغة XML ونحوّلها إلى JSON ليتمكن تطبيق مثل Tableau من استخدامها. ليس هذا فحسب، بل يجب أن تلبي البيانات متطلبات العمل أيضًا. على سبيل المثال، يجب أن تلبي البيانات المستخدمة في التدقيق المالي وتقارير ذكاء الأعمال في نهاية الشهر متطلبات التدقيق المحددة. هذا يعني أننا بحاجة إلى تحويل البيانات لتلبية هذه المتطلبات.
يمكن أيضًا استخدام التحويل لتجميع البيانات واستخلاص قيمة محسوبة حديثًا، والتخلص من البيانات غير المفيدة، والتعامل مع القيم غير المتسقة (مثل أرقام الهواتف مع أو بدون شرطات)، والتعامل مع الصفوف غير المكتملة أو المفقودة أو المكررة، وما إلى ذلك.
تذكر أننا جمعنا البيانات من مصادر داخلية وخارجية في خطوة الاستخراج. لتحميل جميع البيانات إلى نفس الوجهة، يجب أن تتمتع هذه البيانات بالخصائص والتنسيق المطلوبين اللذين يتوافقان مع متطلبات العمل ووجهة التخزين النهائية.
حمولة
المرحلة الأخيرة في عملية استخراج وتحويل وتحميل البيانات هي مرحلة التحميل. بعد استخراج البيانات وتحويلها، نُحمّلها إلى وجهتها ليتمكن مختلف مستخدمي الأعمال من استخدامها للتحليلات والتنبؤات واستخلاص رؤى الأعمال.
يعتمد تنفيذ هذه الخطوة أيضًا على الأداة المستخدمة لتخزين البيانات ومنطق العمل. يمكن تحميل البيانات بالكامل دفعة واحدة أو تحميلها تدريجيًا على دفعات متعددة. قد نحتاج إلى مسح البيانات السابقة قبل تحميل دفعة جديدة، أو تحميلها فوق البيانات القديمة.
قد نحتاج أيضًا إلى إنشاء خطوط أنابيب ETL أو مشغلات إضافية للتعامل مع البيانات بعد تحميلها أو تخزينها كما هي والسماح لمستخدمي الأعمال الآخرين، مثل محللي البيانات وعلماء البيانات، بالتعامل معها بالطريقة التي يرونها مناسبة.
الجدولة
اعتمادًا على حالة الاستخدام، من المحتمل أن يتم جدولة خط أنابيب ETL بالكامل أو مراقبته أو أتمتته بواسطة حل تنسيق البيانات مثل Apache Airflow أو حتى أدوات أبسط مثل pandas أو cron من Python.
على سبيل المثال، سيضيف تنظيم خط أنابيب استخراج وتحويل وتحميل (ETL) يستخرج باستمرار أسعار العملات في الساعة الأخيرة لشركة استثمار في سوق الفوركس قيمة كبيرةً إلى خط الأنابيب. سيسمح ذلك للمستخدمين بتقسيم المهام المختلفة في العملية والتحكم فيها بشكل أفضل.
يعد تنظيم خطوط أنابيب ETL طريقة جيدة لتقليل الأخطاء والأخطاء البشرية، وتوفير الوقت، وتحسين الدقة، وتقليل الجهد اليدوي، والمزيد.