مقدمة
التصنيف هو أحد أنواع الخوارزميات المستخدمة في مجال تعلم الآلة. تعريفه ببساطة هو فرز الأشياء إلى مجموعات ذات صفات متشابهة. وتنطوي خوارزميات التصنيف تحت مجال التعلم الموجه على عكس خوارزميات التجميع والتعلم التعزيزي وذلك لأن البيانات مسماة (Labelled Data).
التصنيف من أهم وأشهر وأبسط خوارزميات تعلم الآلة، ويتفرع منه أنواع كثيرة كما تشاهدون في الصورة.
خوارزمية الجار القريب للعدد كي (KNN)
في خوارزمية KNN يتم تحديد عدد القيم (k) والتي ستكون النقاط المركزية في المستوى الإحداثي، ثم تحسب المسافات بين قيم العينة كاملة وبين النقاط الأساسية ، ويتم ضم القيم حسب الأقرب فالأقرب إلى مجموعة كي 1 مثلا.
يتم قياس المسافات بين كل قيمة من قيم كي، عن طريق معادلات المسافة الرياضية، وأشهر معادلة قياس مسافة هي معادلة المسافة الإقليدية (Eucliean Distance).
تقيس الدالة الإقليدية المسافة بين نقطتين، حيث أن P و Q هما مجموعتين مختلفتين، ويتم تطبيق هذا القانون على جميع النقاط في العينة لنرى أي نقطة أقرب لكل مجموعة على اعتقاد أن المجموعة الأولى هي K=1 أو المجموعة ألف، والمجموعة الثانية هي K=2 أو المجموعة باء.
ولكن ستواجهنا مشكلة وهي أنه ستكون هنالك قيم ستكون بعيدة عن جميع المجموعات ولذلك سنلجأ لخوارزمية SVM لحل هذه المشكلة.
خوارزمية آلة المتجهات الداعمة (SVM)
ما تفعله خوارزمية هو وضع حاجز داعم لقرارات إستبعاد قيمة أو ضمّها للمجموعة، وبذلك نلاحظ أنّ SVM من الممكن أن تكون مشمولة بخوارزمية KNN ولكنها مزودة بداعم ، وذلك يمكننا من الوصول إلى صحة ودقة أكبرين.
خوارزمية الانحدار اللوجستي
الانحدار اللوجستي هو انحدار يعتمد على الدالة السينية (Sigmoid Function) ونواتجها تنحصر بين الصفر والواحد.
خوارزمية الانحدار اللوجستي تقسم البيانات إلى مجموعتين متناقضتين ولا ينفع استخدام هذه الخوارزمية إلا إذا كانت مجموعة بيانات التدريب مصنفة إلى صنفين فقط. مثل: ذكر وأنثى أو نعم لا، أو ناجح راسب.
خوارزمية شجرة القرار (Decision Tree)
هي خوارزمية بسيطة تعتمد على سلسلة من القرارات المنطقية 0 و1 مثلا بالطريقة الشجرية لإجراء عمليات تحليل القرار.
يتم اعتبار مجموعة البيانات التدريبية على أنها أسئلة تجاب بنعم أو لا وتستمر البيانات بالتفرع إلى أن يتم الوصول إلى النتيجة النهائية. شجرة القرار أيضا تعتبر أنها مجموعة عمليات من If Else. حيث أنه كل فرع من فروع الشجرة هو حالة شرطية. وتكون النتيجة النهائية في أطراف الفروع.
خوارزمية الغابة العشوائية (Random Forest)
أما خوارزمية الغابة العشوائية فهي مجموعة من أشجار القرار، فشجرة قرار واحدة هي جزء من خوارزمية الغابة العشوائية.
ما يميز الغابة العشوائية هو أن كل شجرة قرار فيها تعتمد على عينة من البيانات وعلى طريقة في التصنيف مختلفة عن الشجرة الأخرى وبعد أن يتم إعطاء قرار من كل شجرة في الغابة يتم التصويت على أفضل شجرة قرار وتعتمد نتيجة تلك الشجرة.
باييز الساذج أو البسيط (Naive Bayes)
هي نظرية إحصائية تستخدم لتصنيف البيانات وتعتمد على نسبة التشابه من عدمها، وهو مفهوم أقرب للإحصاء يعتمد على دوال التوزيع ( Distribution) فمثلا مصنف (Gaussian Naive Bayes) يعتمد على دالة التوزيع الطبيعي (Normal Distrebution) ولكن يستخدم في تعلم الآلة كمصنف لمجموعة بيانات ذات صفتين مختلفتين مثل(ذكر، أنثى).
أكبر ميزة تميز خوارزمية بايز الساذج هي أنها تعطي نتائج جيدة مع كمية بيانات قليلة على عكس باقي خوارزميات تعلم الآلة فهي تحتاج إلى بيانات أكثر بكثير.
المصادر
Author
-
مبرمجة وباحثة في تعلم الآلة. حاصلة على بكالوريوس تقنية معلومات من الجامعة العربية المفتوحة، وماستر علم البيانات والذكاء الاصطناعي من جامعة اسطنبول آيدن. مهتمة بالرؤية الحاسوبية، ومعالجة اللغات الطبيعية، وأتمتة الروبوت.
View all posts