معالجة البيانات: سير عمل المكتبات

تعرف على كيفية جمع الملفات وتحميلها في عملية معالجة البيانات.

سنغطي ما يلي...

Working with structured and unstructured data

تأتي البيانات بأشكال متعددة وتنبع من مصادر متنوعة. لذلك، يُعدّ التعامل مع البيانات بكفاءة أمرًا أساسيًا لتطوير أنظمة روبوتات الدردشة المتقدمة. سنستكشف العديد من المكتبات والأدوات الأساسية لمعالجة البيانات، ونناقش أدوارها المحددة في تحسين وظائف روبوتات الدردشة. يمكن أن تكون البيانات مُهيكلة، مثل ملفات CSV أو جداول بيانات Excel التي تحتوي على بيانات جدولية، أو غير مُهيكلة، مثل النصوص في ملفات PDF أو الصور. تتطلب معالجة هذه الأنواع من البيانات مكتبات متخصصة لتسهيل عملية معالجتها وتسلسلها وتخزينها.

Managing structured data

تلتزم البيانات المنظمة بمخططات مُحددة مسبقًا، مثل الجداول في قواعد البيانات أو جداول بيانات Excel. وتُركز على تنظيم البيانات بطريقة تجعلها قابلة للبحث والفهم لعمليات مثل الاستعلام والتصفية والتجميع.

Pandas for CSV files

يُبسّط Pandas معالجة البيانات الجدولية، وهو أمرٌ أساسيٌّ لإعداد مجموعات البيانات لروبوتات الدردشة. من خلال قراءة ملفات CSV وكتابتها ومعالجتها بكفاءة، يُساعد Pandas في تنظيف البيانات واستخراج الميزات.

Press + to interact
Python
import pandas as pd
# Reading a CSV file into a DataFrame
df_csv = pd.read_csv('/usercode/GDP.csv')
print(df_csv.head())

In this code, we perform the following steps:

  • Line 1: We import the necessary library.
  • Lines 3–5: We read the CSV file from the disk using pandas read_csv.

Pandas for Excel files

يدعم Pandas أيضًا قراءة وكتابة ملفات Excel xlsx لعمليات البيانات الجدولية.

Press + to interact
Python
import pandas as pd
# Reading a CSV file into a DataFrame
df_csv = pd.read_excel('/usercode/GDP.xlsx', engine='openpyxl')
print(df_csv.head())

In this code, we perform the following steps:

  • Line 1: We import the necessary library.
  • Lines 3–5: We read the Excel file from the disk using pandas read_excel.

OpenPyXL module for Excel manipulation

يُوسّع OpenPyXL إمكانية التفاعل مع ملفات Excel، مُتيحًا معالجةً مُفصّلةً لأوراق العمل والخلايا والصيغ. يُعدّ هذا مفيدًا في الحالات التي تحتاج فيها برامج الدردشة الآلية إلى تعديل بياناتها ديناميكيًا أو استخراجها من جداول بيانات مُعقّدة.

Press + to interact
Python
from openpyxl import load_workbook
# Reading from an Excel file
wb = load_workbook('/usercode/GDP.xlsx')
sheet = wb.active
# Iterating through each row, printing the value of each cell
for idx, row in enumerate(sheet.iter_rows(values_only=True)):
for cell in row:
if idx == 0:
print(cell, end=' ')
else:
print(idx, cell, end=' ')
print('')

In this code, we perform the following steps:

  • Line 1: We import the necessary library.
  • Lines 3–5: We load the Excel file using the load_workbook and extract the sheet using the active workbook.
  • Lines
...