درخت تصمیمگیری یکی از روشهای یادگیری با سرپرست است که در آن هدف طبقهبندی دادهها است. در این مدل، ساختاری درخت مانند جهت طبقهبندی و تعیین کلاس یک داده استفاده میشود. این ساختار از تعدادی گره و شاخه استفاده شدهاست که شاخه ها کلاسها را نشان میدهند و گرهها نیز جهت تصمیمگیری با توجه به ویژگیهای داده استفاده میشوند. این روش به دلیل ساده بودن تفسیر و ساختار از روشهای محبوب یادگیری ماشین است. در شکل زیر ساختار یک درخت تصمیم جهت تعیین نوع بیماری نشان داده شده است.
در این روش برخلاف روشهای دیگر یادگیری ماشین (مانند ماشین بردار پشتیبان و شبکههای عصبی) که سعی داریم مجموعه پارامترهای موجود در مدل را بهینه کنیم به دنبال بهینهکردن پارامترها نیستیم و سعی داریم با استفاده از شرط موجود در برگها دادهها را طبقهبندی کنیم. مهمترین کاری که در ساخت این درخت تصمیم باید انجام دهیم، این است که کدام ویژگی بیشترین تفکیک پذیری را در دادهها بوجود میآورد و با قرار دادن ویژگیها در ساختار درخت (از ریشه به پایین) مدلی برای طبقهبندی دادهها بوجود میآوریم. به همین دلیل الگوریتمهای یادگیری مطابق اولویت خود دادهها را به دو قسمت تقسیم میکنند. در درخت تصمیم یادگیری زمانی متوقف میشود که تمامی نمونههای موجود پردازش شده باشند و تمامی نمونههای موجود در یک برگ هم برچسب باشند. مهمترین تفاوتی که الگوریتمهای مختلف ساخت درخت تصمیم با یکدگیر دارند، انتخاب اولویت ویژگی هاست. یکی از مهمترین اولویتهای موجود برای ویژگیها معیار آنتروپی است. فرمول محاسبه و نمودار این معیار در زیر نمایش داده شدهاست.
H(X)=-∑P(X_i)log(P(X_i)
در روشهایی که بر اساس معیار آنتروپی کار میکنند هر کدام از ویژگیها که کمترین آنتروپی را در برچسبها ایجاد کنند اولویت بالاتری دارند و در ساختار درخت قرار میگیرند. در درخت تصمیم هرچه اندازه درخت کوچکتر باشد باعث میشود مدل تعمیمپذیری بیشتری داشته باشد و واریانس بین فرضیه کمتر میشود. در درخت تصمیم هرچقدر تعداد نود ها بیشتر شود به اولویتهای ریزتر هم اجازه میدهیم وارد مسأله شوند.
از مزایای درخت تصمیم میتوان به موارد زیر اشاره کرد:
- قوانین به کار رفته برای دستهبندی به سادگی قابل استخراج و فهم هستند.
- در درخت تصمیم بر خلاف شبکه عصبی که به دلیل روابط پیچیده مانند جعبه سیاه عمل میکنند شرایط با استفاده از منطق بولی به آسانی قابل توصیف است.
- مقایسههای غیرضروری در ساختار درخت تصمیم حذف میشود.
- درخت تصمیم یک روش بدون بهینهسازی است و برای عملکرد بهتر نیازی به تنظیمات بیشتر ندارد.
- درخت تصمیم قادر به پردازش دادههای بزرگ در زمان بسیار کم است.
- درخت تصمیم قادر به یافتن روابط غیرمنتظره در دادهها است.
همچنین از معایب درخت تصمیم میتوان به موارد زیر اشاره کرد:
- پیادهسازی کردن درخت تصمیم هزینه محاسباتی بالایی دارد.
- در مواردی که تعداد دستهها زیاد و تعداد نمونهها کم است احتمال خطا و عملکرد نادرست در مدل زیاد است.
- مقایسههای غیرضروری در ساختار درخت تصمیم حذف میشود.
- تنظیم عمق درخت کار مشکلی است و عملکرد مناسب درخت به طراحی بهینه آن بستگی دارد.
در صورت وجود خطا در درخت تصمیمگیری این خطا به برگهای زیرین منتقل میشود و بر روی عملکرد کل درخت تاثیر میگذارد.