الاشتقاق والشفاء في بايثون: أيهما يجب استخدامه؟
نشرت: 2021-02-09معالجة اللغة الطبيعية (NLP) هي تقنية معالجة اتصالات تتضمن استخراج ميزات مهمة من اللغة. إنه تقدم في الذكاء الاصطناعي يتضمن بناء عملاء أذكياء من ذوي الخبرة السابقة. تشير الخبرة السابقة هنا إلى التدريب الذي يتم إجراؤه على مجموعات بيانات ضخمة تتضمن بيانات نصية من مصادر بما في ذلك وسائل التواصل الاجتماعي ، وكشط الويب ، ونماذج المسح ، والعديد من تقنيات جمع البيانات الأخرى.
الخطوة الأولى بعد جمع البيانات هي تنظيف هذه البيانات وتحويلها إلى الشكل المقروء آليًا ، وهو الشكل العددي الذي يمكن للآلة تفسيره. في حين أن عملية التحويل هي شيء آخر تمامًا ، فإن عملية التنظيف هي الخطوة الأولى التي يجب القيام بها. في مهمة التنظيف هذه ، يعتبر الانعطاف مفهومًا مهمًا يحتاج إلى فهم واضح قبل الانتقال إلى الاشتقاق واللممات.
جدول المحتويات
لديها
نحن نعلم أن البيانات النصية تتكون من جمل بها كلمات وشخصيات أخرى قد تؤثر أو لا تؤثر على توقعاتنا. تتكون الجمل من الكلمات والكلمات التي يتم استخدامها بشكل شائع مثل ، هناك ، وتسمى كلمات التوقف. يمكن إزالتها بسهولة عن طريق تكوين مجموعة لهم ، ولكن ماذا عن الأشكال المختلفة لنفس الكلمة؟
أنت لا تريد أن يعتبر جهازك "الدراسة" و "الدراسة" كلمتين مختلفتين لأن الهدف من هذه الكلمات يظل كما هو وينقل كلاهما نفس المعنى. يعتبر التعامل مع هذا النوع من الحالات ممارسة شائعة في البرمجة اللغوية العصبية ، وهذا ما يعرف بالانعطاف. هذه هي الفكرة الأساسية للاشتقاق و lemmatization مع مناهج مختلفة. دعنا نكتشف الاختلافات بينهما ونلقي نظرة على أيهما أفضل للاستخدام.
ينبع
إنها إحدى تقنيات تطبيع النص التي تركز على تقليل غموض الكلمات. يركز الاشتقاق على تجريد الكلمة من الكلمة الأساسية. يقوم بذلك عن طريق إزالة البادئات أو اللواحق ، اعتمادًا على الكلمة قيد الدراسة. تعمل هذه التقنية على تقليل الكلمات وفقًا لمجموعة القواعد المحددة.
قد تحتوي الكلمات الناتجة أو لا تحتوي على أي كلمات جذرية ذات معنى. والغرض الرئيسي منه هو تكوين مجموعات من الكلمات المتشابهة معًا بحيث يمكن تحسين المعالجة المسبقة. على سبيل المثال ، تنتمي كلمات مثل "play" و "play" و "play" إلى الكلمة الأصلية "play". يساعد هذا أيضًا في تقليل وقت البحث في محركات البحث ، حيث يتم الآن التركيز بشكل أكبر على العنصر الأساسي.
هناك حالتان يجب مناقشتهما بخصوص الاشتقاق ، أي التبخير الزائد وتحت القطع . أثناء إزالة البادئات واللواحق من الكلمة يحل بعض الحالات ، يتم تجريد بعض الكلمات أكثر من المتطلبات.
هذا يمكن أن يؤدي إلى مزيد من الكلمات المهملة بدون معاني. على الرغم من أن هذا هو عيب الاشتقاق ككل ، وإذا حدث بشكل أكثر خطورة ، فإنه يُعرف باسم الاشتقاق الزائد. الاشتقاق هو العكس حيث ينتج عن عملية الاشتقاق القليل جدًا أو الاختلاف في الكلمات.
اللماتة
طريقة أخرى لتطبيع النص وتحويلها إلى معاني الجذر هو Lemmatization. هذا له نفس الدافع لتجميع الكلمات المتشابهة في مجموعة واحدة ، ولكن الاختلاف هو أن الكلمات الناتجة هنا ذات مغزى.
لم يتم تجريدهم من القواعد المحددة مسبقًا ولكن يتم تشكيلها باستخدام قاموس أو نسميها Lemma. هنا تستغرق عملية التحويل مزيدًا من الوقت لأنه أولاً ، يتم مطابقة الكلمات مع أجزاء الكلام الخاصة بها ، والتي هي في حد ذاتها عملية تستغرق وقتًا طويلاً.
وهذا يضمن أن لكلمة الجذر معنى حرفيًا يساعد في استخلاص نتائج جيدة في التحليل. يكون هذا مفيدًا عندما لا نريد قضاء الكثير من الوقت في تنظيف البيانات ، وتكون البيانات الأكثر نظافة مطلوبة لمزيد من التحليل. تتمثل إحدى عيوب هذه التقنية في أنها تركز أكثر على قواعد الكلمات ، وتتطلب اللغات المختلفة مجموعات منفصلة تؤدي إلى المزيد والمزيد من معالجة البيانات.
الخروج: أفكار مشروع التعلم العميق للمبتدئين
أي واحد لاستخدام؟
الآن تأتي نقطة اختيار واحد بينهما. يعد اختيار أي شخص أمرًا شخصيًا للغاية لأن حالة الاستخدام التي تستهدفها تلعب دورًا رئيسيًا هنا.
إذا كنت ترغب في تحليل جزء كبير من النص ولكن الوقت يمثل قيدًا ، فيمكنك اختيار الاشتقاق لأنه يؤدي هذا الإجراء في وقت أقل ولكن بمعدل نجاح منخفض ، ويتم توفير السيقان عبر طريقة حسابية قد لا تحتوي على أي منها المعنى.
يوفر اعتماد Lemmatization ميزة إضافية تتمثل في الحصول على كلمات جذرية دقيقة وذات مغزى من أشكال مختلفة. إذا كنت تستطيع توفير موارد حوسبة جيدة بمزيد من الوقت ، فقد يكون هذا خيارًا أفضل. يجب اعتماد هذا حيث نريد تحليلًا دقيقًا. يمكن أن يكون الأمر كذلك في حالة بعض تقنيات البحث على محركات البحث حيث تكون كلمة الجذر كافية لجلب النتائج التي يريدها المستخدم.
تنفيذ بايثون
حزمة NLTK (مجموعة أدوات اللغة الطبيعية) هي تطبيق Python للمهام حول البرمجة اللغوية العصبية. تحتوي هذه المكتبة على جميع الأدوات المطلوبة مثل Stemmers. Lemmatizers ، وإيقاف إزالة الكلمات ، وإنشاء أشجار محلل مخصصة ، وأكثر من ذلك بكثير. كما أنه يحتوي على بيانات المجموعة من مصادر بارزة مدرجة في الحزمة نفسها.
تتميز تقنية الاشتقاق بالعديد من التطبيقات ، ولكن أشهرها وأقدمها هي خوارزمية بورتر ستيمر. يستخدم Snowball الجذع أيضًا في بعض المشاريع. لفهم الفرق بين الاشتقاق واللاممات بشكل أكثر وضوحًا ، انظر إلى الكود أدناه وإخراج نفسه:
استيراد nltk
من استيراد nltk.stem PorterStemmer
من nltk.stem استيراد WordNetLemmatizer
word_stemmer = PorterStemmer ()
lemmatizer = WordNetLemmatizer ()
طباعة (lemmatizer.lemmatize ("الذباب"))
طباعة (word_stemmer.stem ("الذباب"))
انتاج:
يطير
fli
الإخراج الأول من lemmatizer والثاني من الجذع. يمكنك أن ترى الفرق الذي أعطى lemmatizer الكلمة الجذر كإخراج بينما قام الجذع بقص الكلمة من النهاية.
تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
اقرأ أيضًا: أفكار مشروع التعلم الآلي
خاتمة
ينمو البرمجة اللغوية العصبية (NLP) كل يوم وتتطور الأساليب الجديدة بمرور الوقت. يركز معظمهم على كيفية استخراج المعلومات الصحيحة بكفاءة من البيانات النصية بأقل قدر من الخسارة والقضاء على جميع الضوضاء. يتم استخدام كلتا الطريقتين بشكل شائع. كل ما يهم هو أن التحليل يتم على بيانات نظيفة.
ما نوعان من خوارزميات الذكاء الاصطناعي المستخدمة لتجميع المستندات؟
التجميع الهرمي والتكتل غير الهرمي هما نوعان من خوارزميات الذكاء الاصطناعي المستخدمة لتجميع النصوص. تقوم خوارزمية التجميع الهرمي بتقسيم المستندات وتجميعها وفقًا لمجموعة من القواعد. ثم يتم توصيل أزواج مجموعات عناصر البيانات في التسلسل الهرمي معًا. في حين أن هذه التقنية سهلة القراءة والفهم ، إلا أنها قد لا تكون فعالة مثل التجميع غير الهرمي. عندما يكون هناك الكثير من العيوب في البيانات ، قد يكون التجميع صعبًا. يستلزم التجميع غير الهرمي دمج المجموعات الموجودة وكسرها لإنشاء مجموعات جديدة. هذا نهج تجميع أسرع نسبيًا وأكثر موثوقية وأكثر استقرارًا.
هل اللماتة مفضلة لتحليل المشاعر؟
يعتبر كل من اللمات والجذع من الإجراءات الفعالة للغاية. ومع ذلك ، عند تحويلها إلى شكل جذر ، ينتج عن lemmatization دائمًا مصطلح معنى القاموس. عندما لا يكون معنى المصطلح مهمًا للدراسة ، يوصى بالاشتقاق. عندما يكون معنى كلمة ما أمرًا حيويًا للتحليل ، ينصح باستخدام اللماتة. نتيجة لذلك ، إذا كان عليك اختيار طريقة واحدة لتحليل المشاعر ، فستكون اللماتة هي الطريقة التي يجب اتباعها.
كيف يتم استخدام الاشتقاق و lemmatization لتجميع المستندات؟
تجميع المستندات ، المعروف أيضًا باسم تجميع النص ، هو طريقة لتحليل النصوص النصية عن طريق تجميعها معًا. تتراوح تطبيقاته من الترتيب الآلي للوثائق إلى استخراج الموضوع وحتى الاسترجاع السريع للمعلومات. يتم استخدام Stemming و lemmatization لتقليل عدد الرموز المطلوبة لتوصيل نفس المعلومات ، وبالتالي تحسين التقنية الشاملة. بعد خطوة المعالجة المسبقة هذه ، يتم حساب الميزات عن طريق قياس تكرار كل رمز ، متبوعًا بأكثر طرق التجميع كفاءة.