ابدء
تعرف على المتطلبات العامة لهذه الدورة وما تقدمه لدارسيها.
سنغطي ما يلي...
في هذه الدورة، سنكتسب خبرة عملية في بناء خطوط أنابيب ETL لنقل البيانات لأغراض الاستخبارات التجارية (BI) والتحليلات.
من ينبغي أن يأخذ هذه الدورة؟
يُعدّ استخراج وتحويل وتحميل البيانات (ETL) أمرًا بالغ الأهمية لذكاء الأعمال والتحليلات. تعتمد المؤسسات والشركات اليوم على البيانات، وتُولي قيمة كبيرة لاتخاذ القرارات الاستراتيجية بناءً على تحليل البيانات وذكاء الأعمال بشكل عام.
تُعدّ القدرة على بناء خطوط أنابيب استخراج وتحويل وتحميل البيانات (ETL) لنقل البيانات أمرًا بالغ الأهمية للمؤسسات. فهي تُزوّد المؤسسة ببيانات نقية قابلة للتحليل، وتُقدّم في نهاية المطاف خدمة أفضل للعملاء والمستهلكين. تجمع عملية استخراج وتحويل وتحميل البيانات النموذجية بين العديد من الأدوات واللغات والتقنيات. إنها تُمثّل عالمًا متكاملًا وطريقة ممتازة لممارسة بناء أنظمة تجمع بين مكونات متعددة.
يمكن لأي شخص يطمح إلى أن يكون مهندس بيانات أو هو بالفعل مهندس بيانات نشط أو عالم بيانات أو محلل بيانات أو مطور أو مهتم بإنشاء خطوط أنابيب بيانات لخدمة مستودعات البيانات ومنصات تحليل البيانات باستخدام نموذج ETL الاستفادة من هذه الدورة.
المتطلبات الأساسية
خلال هذه الدورة، سنستخدم أدوات ولغات متنوعة لإكمال خطوات عملية استخراج البيانات وتحميلها وتحميلها. قد تشمل هذه:
لغات برمجة Shell مثل Bash
حلول قواعد بيانات SQL مثل MySQL أو PostgreSQL
حلول قواعد بيانات NoSQL مثل MongoDB
لغات البرمجة مثل Python وApache Spark
أدوات تنظيم البيانات مثل Apache Airflow
مع أن الإلمام بهذه الأدوات يُنصح به، يُرجى عدم التردد في استخدام أيٍّ منها لإنجاز المهام. نشجع بشدة المشاركة الفعّالة في العمل، أو تعديل الشيفرة البرمجية، أو كتابة حلولكم. تذكروا، نحن نُحلّ المشاكل في المقام الأول. لا تُهمّ الأداة نفسها، بل المهم هو إنجاز العمل بأفضل طريقة ممكنة وفي أقلّ وقت.
هيكل الدورة
تنقسم هذه الدورة إلى خمسة أقسام، يُركز كل قسم على موضوع مُحدد. فيما يلي لمحة موجزة عما يُمكن توقعه في كل قسم.
مقدمة
سنبدأ بتقديم موجز لكل مرحلة من مراحل عملية استخراج البيانات وتحميلها وتحميلها. ثم سنعرّف خطوط أنابيب استخراج البيانات وتحميلها وتحميلها وأنابيب البيانات بشكل عام، ونستكشف المبادئ والتقنيات الأساسية لبناء خطوط أنابيب استخراج البيانات وتحميلها وتحميلها. سنتعرف على الأدوات والتقنيات وحالات الاستخدام اليومية لنموذجي استخراج البيانات وتحميلها الرئيسيين: خطوط أنابيب الدفعات وخطوط أنابيب التدفق.
بعد ذلك، سنستكشف حالة استخدام واقعية بناء خط أنابيب ETL كاملًا من الصفر باستخدام لغة برمجة shell Bash. بعد ذلك، سنلقي نظرة عامة على مستودعات البيانات، وهي جزء لا يتجزأ من معظم خطوط أنابيب ETL، وهي موقع التخزين المركزي لمعظم البيانات المتعلقة بالتحليلات.
بعد ذلك، سنناقش بعض الأمثلة الشائعة وحالات الاستخدام لأنابيب ETL في الحياة الواقعية وننظر إلى كيفية استخدام الشركات لها باستمرار لتلبية احتياجاتها التحليلية في غابة البيانات الحديثة.
في الأقسام الثلاثة التالية من الدورة، سنكتسب خبرة عملية في كل خطوة رئيسية من خطوات عملية استخراج البيانات وتحميلها وتحميلها: الاستخراج ، والتحويل ، والتحميل . في كل قسم، سنستعرض بعض الطرق الشائعة لتنفيذ هذه الخطوات، بالإضافة إلى أفضل الممارسات والأنشطة التفاعلية المليئة بمقاطع برمجية لمساعدتك في رحلة إتقان نقل البيانات.
يستخرج
يتناول هذا القسم كيفية استخراج البيانات من مصادر متنوعة، مثل استخراج البيانات من الويب، API REST، وقواعد بيانات متعددة، وحلول التخزين السحابي. سنصبح خبراء في استخراج البيانات من مصادر بيانات شائعة، مثل الملفات، وواجهات برمجة التطبيقات، وقواعد البيانات (سواءً محلية أو سحابية)، وغيرها.
تحويل
بعد جمع البيانات، سنتعلم كيفية معالجتها وتحويلها باستخدام أدوات مثل SQL و Python وApache Spark وBash. سنتعلم كيفية تنظيف البيانات، والتحقق من سلامتها، وإزالة التكرارات، وتطبيع البيانات، وإضافة سياق العمل إلى البيانات العامة والخامة.
حمولة
بعد ذلك، سنتعلم كيفية تحميل البيانات إلى بيئات تحليلية مختلفة مثل قواعد البيانات العلائقية وغير العلائقية، أو مستودعات البيانات المحلية، أو حلول السحابة مثل BigQuery من Google Cloud.
الجمع بين كل شيء
أخيرًا، سنقوم بدمج الخطوات وإنشاء خط أنابيب ETL كامل، وسنتعلم كيفية مراقبة خط أنابيب ETL وأتمتته وتنظيمه باستخدام Apache Airflow.
ستوفر هذه المشاريع ممارسة قيمة لبناء خطوط أنابيب ETL وتوضح كيف قد تبدو خطوط أنابيب ETL الحقيقية في العالم الحقيقي.
مع وضع ذلك في الاعتبار، فلنبدأ رحلة إتقان إنشاء خطوط أنابيب ETL.