إطارات البيانات في بايثون: برنامج تعليمي متعمق لبيثون 2022

نشرت: 2021-01-09

إذا كنت مطورًا أو مبرمجًا يعمل بلغة برمجة Python ، فيجب أن تكون على دراية بواحدة من مكتبات إدارة البيانات المدهشة - Pandas ، واحدة من أفضل مكتبات Python الموجودة هناك. على مر السنين ، ظهرت Pandas كأداة قياسية لتحليل البيانات وإدارتها باستخدام Python. اقرأ عن أدوات Python المهمة الأخرى.

Pandas هي بلا شك حزمة Python الأكثر تنوعًا لعلوم البيانات وهي محقة في ذلك. يوفر هياكل بيانات قوية ومعبرة ومرنة لسهولة معالجة البيانات وتحليلها ، وتعد إطارات البيانات في Python أحد هذه الهياكل.

هذه بالتحديد موضوعات المناقشة الخاصة بنا في هذا المنشور - سنقدم لك تنسيق البيانات الأساسي لـ Pandas ، أي إطار بيانات Pandas.

جدول المحتويات

ما هو إطار البيانات؟

وفقًا لوثائق مكتبة Pandas ، فإن إطار البيانات هو "هيكل بيانات جدولي ثنائي الأبعاد ، قابل للتغيير في الحجم ، يحتمل أن يكون غير متجانس مع محاور محددة (الصفوف والأعمدة)". بكلمات بسيطة ، إطار البيانات هو بنية بيانات حيث تتم محاذاة البيانات بطريقة جدولية ، أي في الصفوف والأعمدة.

عادةً ما يحتوي إطار البيانات على الخصائص التالية:

  • قد تحتوي على عدة صفوف وأعمدة.
  • بينما يمثل كل صف عينة من البيانات ، يشتمل كل عمود على متغير مختلف يصف العينات (الصفوف).
  • عادةً ما تكون البيانات الموجودة في كل عمود من نفس نوع البيانات (على سبيل المثال ، الأرقام والسلاسل والتواريخ وما إلى ذلك).
  • على عكس مجموعات بيانات Excel ، فإنه يتجنب وجود قيم مفقودة ، لذلك لا توجد فجوات أو قيم فارغة بين الصفوف أو الأعمدة.

في إطار بيانات Pandas ، يمكنك أيضًا تحديد أسماء الفهرس والأعمدة لإطار البيانات الخاص بك. بينما يشير الفهرس إلى الاختلاف في الصفوف ، تظهر أسماء الأعمدة الاختلاف في الأعمدة.

كيفية إنشاء إطار بيانات في Python (باستخدام Pandas)

يعد إنشاء إطار بيانات هو الخطوة الأولى لإدخال البيانات في Python. يمكنك إنشاء Pandas Data Frame باستخدام مدخلات مثل:

  • قاموس
  • القوائم
  • مسلسل
  • نومبي "ndarray"
  • إطار بيانات آخر
  • الملفات الخارجية مثل CS
  1. إنشاء إطار بيانات فارغ

من السهل جدًا إنشاء إطار بيانات أساسي ، يُعرف أيضًا باسم إطار بيانات فارغ. هذا مثال:

إدخال -

انتاج -

  1. إنشاء إطار بيانات من القوائم

يمكنك إنشاء إطار بيانات إما باستخدام قائمة واحدة أو قوائم متعددة.

إدخال -

انتاج -

  1. إنشاء إطار بيانات من Dict of "ndarrays" أو القوائم

لإنشاء إطار بيانات من مجموعة من المصفوفات ndarra ، يجب أن تكون جميع المصفوفات ndarra بنفس الطول. أيضًا ، إذا تمت فهرسته ، فيجب أن يكون طول الفهرس مساويًا لطول المصفوفات. ومع ذلك ، إذا لم تتم فهرستها ، فسيكون الفهرس في النطاق (n) افتراضيًا ، حيث تشير "n" إلى طول الصفيف.

إدخال -

انتاج -

هنا القيم 0،1،2،3 هي الفهرس الافتراضي المعين لكل صف باستخدام نطاق الوظيفة (ن).

ما هي عمليات إطار البيانات الأساسية؟

الآن وقد رأينا ثلاث طرق لإنشاء إطارات البيانات في Python ، فقد حان الوقت للتعرف على العمليات المختلفة داخل إطار البيانات.

  1. تحديد فهرس أو عمود من إطار بيانات Pandas

من المهم معرفة كيفية تحديد فهرس أو عمود قبل البدء في إضافة وحذف وإعادة تسمية المكونات داخل DataFrame. افترض أن هذا هو إطار البيانات الخاص بك:

تريد الوصول إلى القيمة الموجودة ضمن الفهرس 0 في العمود "A" - القيمة هي 1. توجد طرق عديدة للوصول إلى هذه القيمة ، ولكن أهمها هما - .loc [] و .iloc [].

إدخال -

انتاج -

لذلك ، كما ترى ، يمكنك الوصول إلى القيم إما عن طريق الاتصال بها من خلال تسميتها أو عن طريق الإعلان عن موضعها في الفهرس أو العمود. أثناء اختيار قيمة من إطار البيانات ، كيف يمكنك تحديد الصفوف والأعمدة من نفس الإطار؟

هذه هي الطريقة:

إدخال -

انتاج-

  1. كيفية إضافة فهرس أو صف أو عمود إلى Pandas DataFrame

بمجرد أن تتعلم كيفية الوصول إلى القيم وتحديد الأعمدة من إطار البيانات ، يمكنك تعلم إضافة فهرس أو صف أو عمود في إطار بيانات Pandas.

إضافة فهرس:

أثناء إنشاء إطار البيانات ، يمكنك اختيار إضافة إدخال إلى وسيطة "الفهرس". هذا يضمن أنه يمكنك الوصول بسهولة إلى الفهرس الذي تريده. إذا لم تحدد الفهرس ، بشكل افتراضي ، فسيتم إضافة فهرس ذو قيمة رقمية يبدأ بـ 0 ويستمر حتى الصف الأخير من DataFrame إليه. على الرغم من أنه حتى بعد تحديد الفهرس افتراضيًا ، يمكنك استخدام عمود وتحويله إلى فهرس عن طريق استدعاء وظيفة set_index () في إطار البيانات.

إضافة صف:

يمكنك إضافة صفوف إلى DataFrame باستخدام وظيفة الإلحاق.

إدخال -

انتاج -

يمكنك أيضًا استخدام .loc لإدراج صفوف في DataFrame الخاص بك كما يلي:

إدخال -

انتاج -

إضافة عمود

إذا كنت ترغب في جعل الفهرس جزءًا من إطار البيانات ، فيمكنك أخذ عمود من إطار البيانات أو الرجوع إلى عمود لم يتم إنشاؤه بعد ، وتعيينه إلى خاصية .index مثل هذا:

إدخال -

انتاج -

لإضافة أعمدة إلى إطار البيانات ، يمكنك أيضًا استخدام نفس الأسلوب الذي قد تستخدمه لإضافة فهرس إلى إطار البيانات ، أي يمكنك استخدام الوظيفة .loc [] أو .iloc []. علي سبيل المثال:

إدخال -

انتاج |

باستخدام .loc [] ، يمكنك إضافة سلسلة إلى DataFrame موجود. نظرًا لأن كائن السلسلة مشابه تمامًا لعمود إطار البيانات ، فمن السهل جدًا إضافة سلسلة إلى إطار بيانات موجود.

  1. كيفية إعادة تعيين فهرس إطار البيانات؟

يمكنك إعادة تعيين فهرس إطار البيانات إذا لم يتم تشكيله بالشكل الذي تريده. يمكنك استخدام وظيفة .reset_index () للقيام بذلك.

إدخال -

انتاج -

  1. كيفية حذف فهرس أو صف أو عمود إلى Pandas DataFrame

حذف فهرس

  • إعادة ضبط فهرس إطار البيانات.
  • قم بإزالة اسم الفهرس (إن وجد) باستخدام وظيفة del df.index.name.
  • قم بإزالة فهرس مع صف.
  • قم بإزالة جميع قيم الفهرس المكررة عن طريق إعادة تعيين الفهرس ، وإسقاط النسخ المكررة لعمود الفهرس الذي تمت إضافته إلى إطار البيانات ، وإعادة العمود الجديد (الخالي من فهرس مكرر) مرة أخرى كفهرس.

حذف عمود

لإزالة الأعمدة من إطار البيانات ، يمكنك استخدام وظيفة الإسقاط ().

إدخال -

انتاج -

حذف صف

لحذف صف من إطار البيانات ، يمكنك استخدام وظيفة drop () باستخدام خاصية الفهرس لتحديد فهرس الصفوف التي تريد حذفها من DataFrame.

إدخال -

انتاج -

ومع ذلك ، لحذف الصفوف المكررة ، يمكنك استخدام وظيفة df.drop_duplicates ().

إدخال -

انتاج -

المصادر: Tutorialspoint Datacamp

خاتمة

لذلك ، هناك البرنامج التعليمي الأساسي الخاص بك لـ Data Frame في Python باستخدام Pandas.

إذا كنت مهتمًا بتعلم Python وعلوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع وورش عمل عملية عملية وإرشاد مع خبراء الصناعة ، وجهاً لوجه مع مرشدين في هذا المجال ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

لماذا تعد Pandas واحدة من أكثر المكتبات المفضلة لإنشاء إطارات البيانات في Python؟

تعتبر مكتبة Pandas هي الأكثر ملاءمة لإنشاء إطارات البيانات لأنها توفر ميزات متنوعة تجعلها فعالة لإنشاء إطار بيانات. بعض هذه الميزات كالتالي: تزودنا Pandas بإطارات بيانات مختلفة لا تسمح فقط بتمثيل فعال للبيانات ولكنها تمكننا أيضًا من معالجتها. يوفر ميزات محاذاة وفهرسة فعالة توفر طرقًا ذكية لتصنيف البيانات وتنظيمها. بعض ميزات Pandas تجعل الكود نظيفًا ويزيد من قابليته للقراءة ، مما يجعله أكثر كفاءة. يمكنه أيضًا قراءة تنسيقات ملفات متعددة. JSON و CSV و HDF5 و Excel هي بعض تنسيقات الملفات التي يدعمها Pandas. كان دمج مجموعات البيانات المتعددة تحديًا حقيقيًا للعديد من المبرمجين. تغلب الباندا على هذا أيضًا ودمج مجموعات بيانات متعددة بكفاءة عالية.

ما هي المكتبات والأدوات الأخرى التي تكمل مكتبة Pandas؟

لا تعمل Pandas كمكتبة مركزية لإنشاء إطارات البيانات فحسب ، بل تعمل أيضًا مع مكتبات وأدوات أخرى في Python لتكون أكثر كفاءة. تم بناء Pandas على حزمة NumPy Python مما يشير إلى أن معظم بنية مكتبة Pandas يتم نسخها من حزمة NumPy. يتم تشغيل التحليل الإحصائي للبيانات الموجودة في مكتبة Pandas بواسطة SciPy ، ووظائف التخطيط على Matplotlib ، وخوارزميات التعلم الآلي في Scikit-Learn. Jupyter Notebook عبارة عن بيئة تفاعلية قائمة على الويب تعمل بمثابة IDE وتوفر بيئة جيدة لـ Pandas.

ما هي عمليات إطار البيانات الأساسية؟

من المهم تحديد فهرس أو عمود قبل بدء أي عملية مثل الإضافة أو الحذف. بمجرد أن تتعلم كيفية الوصول إلى القيم وتحديد الأعمدة من إطار البيانات ، يمكنك تعلم إضافة فهرس أو صف أو عمود في Pandas Dataframe. إذا لم يظهر الفهرس في إطار البيانات بالشكل الذي تريده ، فيمكنك إعادة تعيينه. لإعادة ضبط الفهرس ، يمكنك استخدام وظيفة "reset_index ()".