...
/معالجة البيانات: سير عمل المكتبات
معالجة البيانات: سير عمل المكتبات
تعرف على كيفية جمع الملفات وتحميلها في عملية معالجة البيانات.
سنغطي ما يلي...
Working with structured and unstructured data
تأتي البيانات بأشكال متعددة وتنبع من مصادر متنوعة. لذلك، يُعدّ التعامل مع البيانات بكفاءة أمرًا أساسيًا لتطوير أنظمة روبوتات الدردشة المتقدمة. سنستكشف العديد من المكتبات والأدوات الأساسية لمعالجة البيانات، ونناقش أدوارها المحددة في تحسين وظائف روبوتات الدردشة. يمكن أن تكون البيانات مُهيكلة، مثل ملفات CSV أو جداول بيانات Excel التي تحتوي على بيانات جدولية، أو غير مُهيكلة، مثل النصوص في ملفات PDF أو الصور. تتطلب معالجة هذه الأنواع من البيانات مكتبات متخصصة لتسهيل عملية معالجتها وتسلسلها وتخزينها.
Managing structured data
تلتزم البيانات المنظمة بمخططات مُحددة مسبقًا، مثل الجداول في قواعد البيانات أو جداول بيانات Excel. وتُركز على تنظيم البيانات بطريقة تجعلها قابلة للبحث والفهم لعمليات مثل الاستعلام والتصفية والتجميع.
Pandas for CSV files
يُبسّط Pandas معالجة البيانات الجدولية، وهو أمرٌ أساسيٌّ لإعداد مجموعات البيانات لروبوتات الدردشة. من خلال قراءة ملفات CSV وكتابتها ومعالجتها بكفاءة، يُساعد Pandas في تنظيف البيانات واستخراج الميزات.
import pandas as pd# Reading a CSV file into a DataFramedf_csv = pd.read_csv('/usercode/GDP.csv')print(df_csv.head())
In this code, we perform the following steps:
- Line 1: We import the necessary library.
- Lines 3–5: We read the CSV file from the disk using pandas
read_csv
.
Pandas for Excel files
يدعم Pandas أيضًا قراءة وكتابة ملفات Excel xlsx
لعمليات البيانات الجدولية.
import pandas as pd# Reading a CSV file into a DataFramedf_csv = pd.read_excel('/usercode/GDP.xlsx', engine='openpyxl')print(df_csv.head())
In this code, we perform the following steps:
- Line 1: We import the necessary library.
- Lines 3–5: We read the Excel file from the disk using pandas
read_excel
.
OpenPyXL module for Excel manipulation
يُوسّع OpenPyXL إمكانية التفاعل مع ملفات Excel، مُتيحًا معالجةً مُفصّلةً لأوراق العمل والخلايا والصيغ. يُعدّ هذا مفيدًا في الحالات التي تحتاج فيها برامج الدردشة الآلية إلى تعديل بياناتها ديناميكيًا أو استخراجها من جداول بيانات مُعقّدة.
from openpyxl import load_workbook# Reading from an Excel filewb = load_workbook('/usercode/GDP.xlsx')sheet = wb.active# Iterating through each row, printing the value of each cellfor idx, row in enumerate(sheet.iter_rows(values_only=True)):for cell in row:if idx == 0:print(cell, end=' ')else:print(idx, cell, end=' ')print('')
In this code, we perform the following steps:
- Line 1: We import the necessary library.
- Lines 3–5: We load the Excel file using the
load_workbook
and extract the sheet using the active workbook. - Lines