تصور البيانات في بايثون: شرح المخططات الأساسية [مع رسم توضيحي رسومي]

نشرت: 2021-02-08

جدول المحتويات

مبادئ التصميم الأساسية

لأي عالم بيانات طموح أو ناجح ، تعد القدرة على شرح أبحاثك وتحليلك مهارة مهمة ومفيدة للغاية لامتلاكها. هذا هو المكان الذي يظهر فيه تصور البيانات في الصورة. من الضروري استخدام هذه الأداة بأمانة حيث يمكن بسهولة تضليل الجمهور أو خداعهم من خلال خيارات التصميم السيئة.

كعلماء بيانات ، لدينا جميعًا التزامات معينة فيما يتعلق بالحفاظ على ما هو حقيقي.

الأول هو أننا يجب أن نكون صادقين تمامًا مع أنفسنا أثناء تنظيف البيانات وتلخيصها. تعد المعالجة المسبقة للبيانات خطوة حاسمة للغاية لعمل أي خوارزمية للتعلم الآلي ، وبالتالي فإن أي خداع في البيانات سيؤدي إلى نتائج مختلفة تمامًا.

التزام آخر تجاه جمهورنا المستهدف. هناك تقنيات مختلفة في تصور البيانات تُستخدم لتسليط الضوء على أقسام معينة من البيانات وجعل بعض أجزاء البيانات الأخرى أقل بروزًا. لذلك إذا لم نتوخى الحذر الكافي ، فلن يتمكن القارئ من استكشاف التحليل والحكم عليه بشكل صحيح مما قد يؤدي إلى الشك وانعدام الثقة.

يعتبر استجواب الذات دائمًا سمة جيدة لعلماء البيانات. ويجب أن نفكر دائمًا في كيفية إظهار ما هو مهم حقًا بطريقة مفهومة وممتعة من الناحية الجمالية ، مع تذكر هذا السياق أيضًا.

هذا بالضبط ما يحاول ألبرتو كايرو تصويره في تعاليمه. يذكر الصفات الخمس للتخيلات العظيمة: جميلة ، منيرة ، وظيفية ، ثاقبة ، وصادقة والتي تستحق وضعها في الاعتبار.

بعض المؤامرات الأساسية

الآن بعد أن أصبح لدينا فهم أساسي لمبادئ التصميم ، دعنا نتعمق في بعض تقنيات التصور الأساسية باستخدام مكتبة matplotlib في لغة بايثون.

يمكن تنفيذ جميع الكود أدناه في دفتر Jupyter.

٪ دفتر matplotlib

# هذا يوفر بيئة تفاعلية ويضع النهاية الخلفية. ( يمكن أيضًا استخدام ٪ matplotlib المضمنة ولكنها ليست تفاعلية. وهذا يعني أن أي استدعاءات أخرى لوظائف التخطيط لن تقوم تلقائيًا بتحديث التصور الأصلي الخاص بنا.)

import matplotlib.pyplot كـ plt # استيراد وحدة المكتبة المطلوبة

مؤامرات النقطة

أبسط دالة matplotlib لرسم نقطة هي الرسم () . تمثل الوسيطات إحداثيات X و Y ، ثم قيمة سلسلة تصف كيفية عرض إخراج البيانات.

plt. الشكل ()

plt.plot (5، 6، '+') # تعمل العلامة + كعلامة

مبعثر

مخطط الانتشار هو مخطط ثنائي الأبعاد. تأخذ الدالة scatter () أيضًا قيمة X كوسيطة أولى وقيمة Y باعتبارها الثانية. المؤامرة أدناه عبارة عن خط قطري ويقوم matplotlib تلقائيًا بضبط حجم كلا المحورين. هنا ، لا يتعامل مخطط التبعثر مع العناصر كسلسلة. لذلك ، يمكننا أيضًا تقديم قائمة بالألوان المرغوبة المقابلة لكل نقطة من النقاط.

استيراد numpy كـ np

س = np.array ([1 ، 2 ، 3 ، 4 ، 5 ، 6 ، 7 ، 8])

ص = س

plt. الشكل ()

مبعثر plt (س ، ص)

قطع الخط

يتم إنشاء مخطط الخط باستخدام وظيفة الرسم () ويرسم عددًا من سلاسل مختلفة من نقاط البيانات مثل مخطط مبعثر ولكنه يربط كل سلسلة نقطية بخط.

استيراد numpy كـ np

linear_data = np.array ([1، 2، 3، 4، 5، 6، 7، 8])

squared_data = linear_data ** 2

plt. الشكل ()

plt.plot (linear_data، '-o'، squared_data، '-o')

لجعل الرسم البياني أكثر قابلية للقراءة ، يمكننا أيضًا إضافة وسيلة إيضاح تخبرنا بما يمثله كل سطر. يعتبر العنوان المناسب للرسم البياني وكلا المحورين مهمًا. يمكن أيضًا تظليل أي قسم من الرسم البياني باستخدام وظيفة fill_between () لإبراز المناطق ذات الصلة.

plt.xlabel ("قيم X")

plt.ylabel ("قيم Y")

plt.title ("قطع الخط")

plt.legend (['linear'، 'squared'])

plt.gca (). fill_between (المدى (len (linear_data)) ، linear_data ، squared_data ، facecolor = 'blue' ، alpha = 0.25)

هذا ما يبدو عليه الرسم البياني المعدل-

المخططات الشريطية

يمكننا رسم مخطط شريطي عن طريق إرسال وسيطات لقيم X وارتفاع كل شريط إلى الدالة bar () . يوجد أدناه مخطط شريطي لنفس مجموعة البيانات الخطية التي استخدمناها أعلاه.

plt. الشكل ()

س = المدى (لين (البيانات_الخطية))

plt.bar (x، linear_data)

# لرسم البيانات التربيعية كمجموعة أخرى من الأشرطة على نفس الرسم البياني ، يتعين علينا ضبط قيم x الجديدة لتعويض المجموعة الأولى من الأشرطة

new_x = []

للبيانات في x:

new_x.append (البيانات + 0.3)

plt.bar (new_x، squared_data، width = 0.3، color = 'green')

# بالنسبة للرسوم البيانية ذات الاتجاه الأفقي ، نستخدم وظيفة barh ()

plt. الشكل ()

س = المدى (لين (البيانات_الخطية))

plt.barh (x، linear_data، height = 0.3، color = 'b')

plt.barh (x، squared_data، height = 0.3، left = linear_data، color = 'g')

# هناك مثال على تكديس مخططات الأعمدة عموديًا

plt. الشكل ()

س = المدى (لين (البيانات_الخطية))

plt.bar (x، linear_data، width = 0.3، color = 'b')

plt.bar (x، squared_data، width = 0.3، bottom = linear_data، color = 'g')

تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

خاتمة

أنواع التصور لا تنتهي هنا فقط. يوجد في Python أيضًا مكتبة رائعة تسمى seaborn والتي تستحق الاستكشاف بالتأكيد. يساعد تصور المعلومات المناسب بشكل كبير على زيادة قيمة بياناتنا. سيكون تصور البيانات دائمًا هو الخيار الأفضل لاكتساب الأفكار وتحديد الاتجاهات والأنماط المختلفة بدلاً من البحث في الجداول المملة التي تحتوي على ملايين السجلات.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هي بعض حزم Python المفيدة لتصور البيانات؟

تحتوي Python على بعض الحزم المذهلة والمفيدة لتصور البيانات. بعض هذه الباقات مذكورة أدناه:
1. Matplotlib - Matplotlib هي مكتبة Python شائعة تستخدم لتصور البيانات في أشكال مختلفة مثل المخططات المبعثرة والرسوم البيانية الشريطية والمخططات الدائرية والمخططات الخطية. تستخدم Numpy لعملياتها الحسابية.

2. Seaborn - تُستخدم مكتبة Seaborn للتمثيل الإحصائي بلغة Python. تم تطويره في الجزء العلوي من Matplotlib ومتكامل مع هياكل بيانات Pandas.
3. Altair - Altair هي مكتبة Python شائعة أخرى لتصور البيانات. إنها مكتبة إحصائية تعريفية تسمح لك بإنشاء صور مرئية بأقل قدر ممكن من الترميز.
4. Plotly - Plotly هي مكتبة تفاعلية ومفتوحة المصدر لتصور البيانات في Python. يتم دعم العناصر المرئية التي تم إنشاؤها بواسطة هذه المكتبة المستندة إلى المستعرض بواسطة العديد من الأنظمة الأساسية مثل Jupyter Notebook وملفات HTML المستقلة.

ماذا تعرف عن المؤامرات النقطية والمؤامرات المبعثرة؟

المخططات النقطية هي أبسط وأبسط المؤامرات لتصور البيانات. يعرض مخطط النقطة البيانات في شكل نقاط على مستوى ديكارتي. يُظهر الرمز "+" الزيادة في القيمة بينما يُظهر "-" الانخفاض في القيمة بمرور الوقت.
مخطط التبعثر من ناحية أخرى هو مخطط محسن حيث يتم عرض البيانات على مستوى ثنائي الأبعاد. يتم تعريفها باستخدام دالة scatter () التي تأخذ قيمة المحور x كمعامل أول وقيمة المحور y كمعامل ثاني.

ما هي مزايا تصور البيانات؟

توضح المزايا التالية كيف يمكن أن تصبح تصورات البيانات البطل الحقيقي لنمو المؤسسة:
1. يجعل تصور البيانات من السهل تفسير البيانات الأولية وفهمها لمزيد من التحليل.
2. بعد البحث عن البيانات وتحليلها ، يمكن عرض النتائج باستخدام تصورات ذات مغزى. هذا يجعل من السهل التواصل مع الجمهور وشرح النتائج.
3. أحد أهم تطبيقات هذه التقنية هو تحليل الأنماط والاتجاهات لاستنتاج التنبؤات ومجالات النمو المحتملة.
4. يسمح لك أيضًا بفصل البيانات وفقًا لتفضيلات العميل. يمكنك أيضًا تحديد المجالات التي تحتاج إلى مزيد من الاهتمام.