ما هي خوارزمية EM في التعلم الآلي؟ [موضح بأمثلة]

نشرت: 2021-03-10

خوارزمية EM أو خوارزمية توقع الحد الأقصى هي نموذج متغير كامن اقترحه آرثر ديمبستر ونان ليرد ودونالد روبين في عام 1977.

يشتمل نموذج المتغير الكامن على متغيرات يمكن ملاحظتها ومتغيرات غير قابلة للرصد. المتغيرات المرصودة هي تلك التي يمكن قياسها بينما المتغيرات غير المرصودة (كامنة / مخفية) يتم استنتاجها من المتغيرات المرصودة.

كما أوضح الثلاثي ، يمكن استخدام خوارزمية EM لتحديد معلمات الاحتمالية القصوى المحلية (MLE) أو الحد الأقصى لمعلمات لاحقة (MAP) للمتغيرات الكامنة (المتغيرات غير القابلة للرصد التي يجب استنتاجها من المتغيرات التي يمكن ملاحظتها) في نموذج إحصائي. يتم استخدامه للتنبؤ بهذه القيم أو تحديد البيانات المفقودة أو غير المكتملة ، بشرط أن تعرف الشكل العام لتوزيع الاحتمالات المرتبط بهذه المتغيرات الكامنة.

لوضعها ببساطة ، فإن المبدأ العام وراء خوارزمية EM في التعلم الآلي يتضمن استخدام حالات يمكن ملاحظتها من المتغيرات الكامنة للتنبؤ بالقيم في الحالات التي لا يمكن ملاحظتها للتعلم. يتم ذلك حتى يحدث تقارب القيم.

تعد الخوارزمية أداة قوية إلى حد ما في التعلم الآلي وهي مزيج من العديد من الخوارزميات غير الخاضعة للإشراف. يتضمن ذلك خوارزمية التجميع k-mean ، من بين متغيرات خوارزمية EM الأخرى.

انضم إلى دورة التعلم الآلي عبر الإنترنت من أفضل الجامعات في العالم - الماجستير ، وبرامج الدراسات العليا التنفيذية ، وبرنامج الشهادات المتقدمة في ML & AI لتسريع حياتك المهنية.

جدول المحتويات

خوارزمية تعظيم التوقع

دعنا نستكشف آلية خوارزمية تعظيم التوقع في التعلم الآلي:

مصدر

  • الخطوة 1: لدينا مجموعة من البيانات المفقودة أو غير المكتملة ومجموعة أخرى من معلمات البداية. نفترض أن البيانات المرصودة أو القيم الأولية للمعلمات يتم إنشاؤها من نموذج معين.
  • الخطوة 2: بناءً على القيمة التي يمكن ملاحظتها في الحالات التي يمكن ملاحظتها من البيانات المتاحة ، سوف نتنبأ أو نقدر القيم في الحالات غير القابلة للرصد من البيانات أو البيانات المفقودة. يُعرف هذا بخطوة التوقع (الخطوة الإلكترونية).
  • الخطوة 3: باستخدام البيانات التي تم إنشاؤها من الخطوة الإلكترونية ، سنقوم بتحديث المعلمات وإكمال مجموعة البيانات. يُعرف هذا بخطوة التعظيم (M - step) والتي تُستخدم لتحديث الفرضية.

تتكرر الخطوتان 2 و 3 حتى التقارب. بمعنى أنه إذا لم تكن القيم متقاربة ، فسنكرر الخطوة E والخطوة M.

.

مصدر

مزايا وعيوب خوارزمية EM

عيوب خوارزمية EM
1 ينتج عن كل تكرار في خوارزمية EM زيادة مضمونة في الاحتمالية.
2 إن خطوة التوقع وخطوة التعظيم سهلة إلى حد ما والحل للأخير موجود في الغالب في شكل مغلق.
مزايا خوارزمية EM
1 تأخذ خوارزمية تعظيم التوقع كلاً من الاحتمالات الأمامية والخلفية في الاعتبار. هذا على النقيض من التحسين العددي الذي يأخذ فقط الاحتمالات المستقبلية في الاعتبار.
2 تقارب خوارزمية EM بطيء جدًا ويتم إجراؤه فقط مع Optima المحلي.

تطبيقات الخوارزمية الكهرومغناطيسية

يحتوي النموذج المتغير الكامن على الكثير من تطبيقات العالم الحقيقي في التعلم الآلي.

  1. يتم استخدامه في تجميع البيانات غير الخاضعة للرقابة والتحليل النفسي.
  2. يتم استخدامه أيضًا لحساب كثافة Gaussian لوظيفة.
  3. تجد خوارزمية EM استخدامًا واسعًا في التنبؤ بمعلمات نموذج ماركوف المخفي (HMM) والنماذج المختلطة الأخرى.
  4. تجد خوارزمية EM الكثير من الاستخدامات في معالجة اللغة الطبيعية (NLP) ورؤية الكمبيوتر وعلم الوراثة الكمي.
  5. تشمل التطبيقات المهمة الأخرى لخوارزمية EM إعادة بناء الصورة في مجال الطب والهندسة الإنشائية.

دعونا نفهم خوارزمية EM باستخدام نموذج خليط غاوسي.

خوارزمية EM لنموذج الخليط الغاوسي

لتقدير معلمات نموذج خليط غاوسي ، سنحتاج إلى بعض المتغيرات المرصودة الناتجة عن عمليتين منفصلتين تُعرف توزيعاتهما الاحتمالية. ومع ذلك ، يتم دمج نقاط البيانات الخاصة بالعمليتين ولا نعرف التوزيع الذي تنتمي إليه.

نحن نهدف إلى تقدير معلمات هذه التوزيعات باستخدام تقدير الاحتمالية القصوى لخوارزمية EM كما هو موضح أعلاه.

هذا هو الكود الذي سنستخدمه:

# إعطاء دالة علينا حساب كثافة لها

# Gaussian عند النقطة x_i معطى mu، sigma: G (x_i، mu، sigma) ؛ و

# وظيفة أخرى لحساب احتمالات السجل: L (x، mu، sigma، pi)

تقدير def Estim_gmm (x، K، tol = 0.001، max_iter = 100):

"تقدير معلمات GMM.

: param x: قائمة المتغيرات ذات القيمة الحقيقية الملاحظة

: بارام ك: عدد صحيح لعدد غاوسي

: param tol: التغيير المسموح به لاحتمالية تسجيل الدخول

: العودة: معلمات مو ، سيجما ، باي

"

# 0. تهيئة theta = (mu، sigma، pi)

N = لين (س)

mu، sigma = [rand ()] * K، [rand ()] * K.

بي = [راند ()] * ك

Curr_L = np.inf

لـ j في النطاق (max_iter):

prev_L = cur_L

# 1.خطوة إلكترونية: المسؤولية = p (z_i = k | x_i، theta ^ (t-1))

ص = {}

لأني في النطاق (N):

الأجزاء = [pi [k] * G (x_i، mu [k]، sigma [k]) لـ i في النطاق (K)]

المجموع = مجموع (أجزاء)

لأني في ك:

r [(i، k)] = الأجزاء [k] / المجموع

# 2. M- الخطوة: تحديث قيم mu و sigma و pi

rk = [sum ([r [(i، k)] لـ i في النطاق (N)]) لـ k في النطاق (K)]

لـ k في النطاق (K):

pi [k] = rk [k] / N

mu [k] = sum (r [(i، k)] * x [i] لـ i في النطاق (N)) / rk [k]

sigma [k] = sum (r [(i، k)] * (x [i] - mu [k]) ** 2) / rk [k]

# 3. تحقق من حالة الخروج

Current_L = L (س ، مو ، سيغما ، باي)

إذا القيمة المطلقة (prev_L - cur_L) <tol:

استراحة

عودة مو ، سيجما ، بي

في الخطوة الإلكترونية ، يمكننا استخدام نظرية بايز لتحديد القيم المتوقعة لنقاط البيانات المعطاة التي تم رسمها من التكرارات السابقة للخوارزمية. في M-Step ، نفترض أن قيم المتغيرات الكامنة ثابتة لتقدير الوكلاء في الحالات غير المرصودة باستخدام أقصى احتمال. أخيرًا ، استخدمنا معادلات المتوسط ​​القياسي والانحراف المعياري لتقدير معاملات نموذج الخليط الغاوسي.

خاتمة

هذا يقودنا إلى نهاية المقال. لمزيد من المعلومات حول مفاهيم التعلم الآلي ، تواصل مع أعضاء هيئة التدريس الأعلى في IIIT Bangalore وجامعة Liverpool John Moores من خلال برنامج upGrad 's Master of Science in Machine Learning & AI .

إنها دورة مدتها 18 شهرًا توفر أكثر من 450 ساعة من المحتوى التعليمي ، وأكثر من 12 مشروعًا صناعيًا ، و 10 خيارات لمشروع Capstone ، وأكثر من 10 مهام تشفير. تستمتع أيضًا بالإرشاد الشخصي من خبراء الصناعة ، واستشارات التوجيه المهني من خلال الجلسات الحية. الدفعة التالية تبدأ في 28 فبراير 2021!

ما المقصود بالتكتل الكهرومغناطيسي؟

من أجل تحسين احتمالية البيانات المرصودة ، يتم استخدام التجميع الكهرومغناطيسي لتقدير الوسائل والانحرافات المعيارية لكل مجموعة (توزيع). استنادًا إلى مجموعات من التوزيعات المتميزة في مجموعات مختلفة ، تحاول خوارزمية EM تقريب توزيعات القيم المرصودة. يستخدم EM نموذج خليط Gaussian المحدود لتجميع البيانات ويقدر بشكل متكرر مجموعة من المعلمات حتى يتم الوصول إلى قيمة التقارب المطلوبة. ينتج عن التجميع الكهرومغناطيسي نتائج تختلف عن تلك التي تم الحصول عليها من خلال مجموعة الوسائل K.

ما هي التطبيقات الواقعية لخوارزمية الكهرومغناطيسية؟

في مجال الطب ، تُستخدم خوارزمية EM لإعادة بناء الصورة. يتم استخدامه أيضًا للتنبؤ بمعلمات نماذج ماركوف المخفية (HMMs) والنماذج المختلطة الأخرى. كما أنه يساعد في إكمال البيانات المفقودة في عينة معينة. يتم تقدير معلمات العنصر والقدرات الكامنة في نماذج نظرية استجابة العنصر باستخدام EM في القياس النفسي. كما أنها تستخدم على نطاق واسع في مجال الهندسة الإنشائية.

كيف تختلف خوارزمية MLE عن خوارزمية EM؟

في ظل وجود متغيرات خفية ، فإن عملية تقدير الاحتمالية القصوى تتحدى البيانات ببساطة. تجمع MLE في البداية جميع البيانات ثم تستخدمها لبناء النموذج الأكثر احتمالية. مع المتغيرات الكامنة ، توفر خوارزمية تعظيم التوقعات حلاً تكراريًا لتقدير الاحتمالية القصوى. يقوم EM أولاً بعمل تقدير متعلم للمعلمات ، ثم يتحقق من البيانات المفقودة ، ثم يغير النموذج ليناسب التخمينات المتعلمة والبيانات المرصودة.