decision-tree

درخت تصمیم‌گیری یکی از روش‌های یادگیری با سرپرست است که در آن هدف طبقه‌بندی داده‌ها است. در این مدل، ساختاری درخت مانند جهت طبقه‌بندی و تعیین کلاس یک داده استفاده می‌شود. این ساختار از تعدادی گره و شاخه استفاده شده‌است که شاخه ها کلاس‌‌ها را نشان می‌دهند و گره‌ها نیز جهت تصمیم‌گیری با توجه به ویژگی‌های داده استفاده می‌شوند. این روش به دلیل ساده بودن تفسیر و ساختار از روش‌های محبوب یادگیری‌ ماشین است. در شکل زیر ساختار یک درخت تصمیم جهت تعیین نوع بیماری نشان داده شده است.

در این روش برخلاف روش‌های دیگر یادگیری ماشین (مانند ماشین بردار پشتیبان و شبکه‌های عصبی) که سعی داریم مجموعه پارامتر‌های موجود در مدل را بهینه کنیم به دنبال بهینه‌کردن پارامتر‌ها نیستیم و سعی داریم با استفاده از شرط موجود در برگ‌ها داده‌ها را طبقه‌بندی کنیم. مهم‌ترین کاری که در ساخت این درخت تصمیم باید انجام دهیم، این است که کدام ویژگی بیشترین تفکیک‌ پذیری را در داده‌ها بوجود می‌آورد و با قرار دادن ویژگی‌ها در ساختار درخت (از ریشه به پایین) مدلی برای طبقه‌بندی داده‌ها بوجود می‌آوریم. به همین دلیل الگوریتم‌های یادگیری مطابق اولویت خود داده‌ها را به دو قسمت تقسیم می‌کنند. در درخت تصمیم یادگیری زمانی متوقف می‌شود که تمامی نمونه‌های موجود پردازش شده باشند و تمامی نمونه‌های موجود در یک برگ هم برچسب باشند. مهم‌ترین تفاوتی که الگوریتم‌های مختلف ساخت درخت تصمیم با یکدگیر دارند، انتخاب اولویت ویژگی هاست. یکی از مهم‌ترین اولویت‌های موجود برای ویژگی‌ها معیار آنتروپی است. فرمول محاسبه و نمودار این معیار در زیر نمایش داده شده‌است.


H(X)=-∑P(X_i)log⁡(P(X_i)         

در روش‌هایی که بر اساس معیار آنتروپی کار می‌کنند هر کدام از ویژگی‌ها که کمترین آنتروپی را در برچسب‌ها ایجاد کنند اولویت بالاتری دارند و در ساختار درخت قرار می‌گیرند. در درخت تصمیم هرچه اندازه درخت کوچکتر باشد باعث می‌شود مدل تعمیم‌پذیری بیشتری داشته باشد و واریانس بین فرضیه‌ کمتر می‌شود. در درخت تصمیم هرچقدر تعداد نود ها بیشتر شود به اولویت‌های ریزتر هم اجازه می‌دهیم وارد مسأله شوند.

از مزایای درخت تصمیم می‌توان به موارد زیر اشاره کرد:

  • قوانین به کار رفته برای دسته‌بندی به سادگی قابل استخراج و فهم هستند.
  • در درخت تصمیم بر خلاف شبکه عصبی که به دلیل روابط پیچیده مانند جعبه سیاه عمل می‌کنند شرایط با استفاده از منطق بولی به آسانی قابل توصیف است.
  • مقایسه‌های غیرضروری در ساختار درخت تصمیم حذف می‌شود.
  • درخت تصمیم یک روش بدون بهینه‌سازی است و برای عملکرد بهتر نیازی به تنظیمات بیشتر ندارد.
  • درخت تصمیم قادر به پردازش داده‌های بزرگ در زمان بسیار کم است.
  • درخت تصمیم قادر به یافتن روابط غیرمنتظره در داده‌ها است.

همچنین از معایب درخت تصمیم می‌توان به موارد زیر اشاره کرد:

  • پیاده‌سازی کردن درخت تصمیم هزینه محاسباتی بالایی دارد.
  • در مواردی که تعداد دسته‌ها زیاد و تعداد نمونه‌ها کم است احتمال خطا و عملکرد نادرست در مدل زیاد است.
  • مقایسه‌های غیرضروری در ساختار درخت تصمیم حذف می‌شود.
  • تنظیم عمق درخت کار مشکلی است و عملکرد مناسب درخت به طراحی بهینه آن بستگی دارد.

در صورت وجود خطا در درخت تصمیم‌گیری این خطا به برگ‌های زیرین منتقل می‌شود و بر روی عملکرد کل درخت تاثیر می‌گذارد.

پست را به اشتراک بگذارید

در facebook به اشتراک بگذارید
در linkedin به اشتراک بگذارید
در twitter به اشتراک بگذارید
در email به اشتراک بگذارید

پست های مرتبط

ماشین بردار پشتیبان (SVM)

در اﯾﻦ اﻟﮕﻮرﯾﺘﻢ دسته‌بندی، دو ابرﺻﻔﺤﻪ در ﻣﺮز دو ﮐﻼس داده‌ها ﻗﺮار ﮔﺮﻓﺘﻪ می‌شود و ﻣﺴﺌﻠﻪ، ﯾﺎﻓﺘﻦ ﻣﺮز ﺣﺪاﮐﺜﺮي ﺑﯿﻦ اﯾﻦ دو ابرﺻﻔﺤﻪ و درنتیجه

شبکه عصبی بازگشتی LSTM

LSTM نوع خاصی از شبکه‌های عصبی بازگشتی است که برای حل مشکل گرادیان شبکه‌های عصبی بازگشتی قدیمی مطرح شد. این شبکه‌ها برای حذف ضرب‌های متوالی

شبکه‌های عصبی بازگشتی

در تمام شبکه‌های عصبی قدیمی و شبکه‌های عصبی کانولوشنی نگاشت‌های استاتیک داشتیم. با استفاده از شبکه‌های عصبی بازگشتی می‌توان خاصیت دینامیک را به شبکه اضافه

دیدگاه خود را بنویسید