...
/معالجة البيانات: سير عمل المكتبات
معالجة البيانات: سير عمل المكتبات
تعرف على كيفية جمع الملفات وتحميلها في عملية معالجة البيانات.
سنغطي ما يلي...
العمل مع البيانات المنظمة وغير المنظمة
تأتي البيانات بأشكال متعددة وتنبع من مصادر متنوعة. لذلك، يُعدّ التعامل مع البيانات بكفاءة أمرًا أساسيًا لتطوير أنظمة روبوتات الدردشة المتقدمة. سنستكشف العديد من المكتبات والأدوات الأساسية لمعالجة البيانات، ونناقش أدوارها المحددة في تحسين وظائف روبوتات الدردشة. يمكن أن تكون البيانات مُهيكلة، مثل ملفات CSV أو جداول بيانات Excel التي تحتوي على بيانات جدولية، أو غير مُهيكلة، مثل النصوص في ملفات PDF أو الصور. تتطلب معالجة هذه الأنواع من البيانات مكتبات متخصصة لتسهيل عملية معالجتها وتسلسلها وتخزينها.
إدارة البيانات المنظمة
تلتزم البيانات المنظمة بمخططات مُحددة مسبقًا، مثل الجداول في قواعد البيانات أو جداول بيانات Excel. وتُركز على تنظيم البيانات بطريقة تجعلها قابلة للبحث والفهم لعمليات مثل الاستعلام والتصفية والتجميع.
باندا لملفات CSV
يُبسّط Pandas معالجة البيانات الجدولية، وهو أمرٌ أساسيٌّ لإعداد مجموعات البيانات لروبوتات الدردشة. من خلال قراءة ملفات CSV وكتابتها ومعالجتها بكفاءة، يُساعد Pandas في تنظيف البيانات واستخراج الميزات.
import pandas as pd# Reading a CSV file into a DataFramedf_csv = pd.read_csv('/usercode/GDP.csv')print(df_csv.head())
في هذا الكود نقوم بالخطوات التالية:
- السطر 1 : نقوم باستيراد المكتبة اللازمة.
- الأسطر 3-5 : نقرأ ملف CSV من القرص باستخدام pandas
read_csv
.
ملفات Pandas لـ Excel
يدعم Pandas أيضًا قراءة وكتابة Excelxlsx
ملفات لعمليات البيانات الجدولية.
import pandas as pd# Reading a CSV file into a DataFramedf_csv = pd.read_excel('/usercode/GDP.xlsx', engine='openpyxl')print(df_csv.head())
في هذا الكود نقوم بالخطوات التالية:
- السطر 1 : نقوم باستيراد المكتبة اللازمة.
- الأسطر 3-5 : نقوم بقراءة ملف Excel من القرص باستخدام pandas
read_excel
.
وحدة OpenPyXL لمعالجة ملفات Excel
يُوسّع OpenPyXL إمكانية التفاعل مع ملفات Excel، مُتيحًا معالجةً مُفصّلةً لأوراق العمل والخلايا والصيغ. يُعدّ هذا مفيدًا في الحالات التي تحتاج فيها برامج الدردشة الآلية إلى تعديل بياناتها ديناميكيًا أو استخراجها من جداول بيانات مُعقّدة.
from openpyxl import load_workbook# Reading from an Excel filewb = load_workbook('/usercode/GDP.xlsx')sheet = wb.active# Iterating through each row, printing the value of each cellfor idx, row in enumerate(sheet.iter_rows(values_only=True)):for cell in row:if idx == 0:print(cell, end=' ')else:print(idx, cell, end=' ')print('')
في هذا الكود نقوم بالخطوات التالية: