rf

جنگل تصادفی یکی از الگوریتم‌های با سرپرست در یادگیری ماشین است که برای کاربرد‌های طبقه‌بندی و رگرسیون مورد استفاده قرار می‌گیرند. همانگونه که از اسم این الگوریتم مشخص است در این الگوریتم جنگلی به صورت تصادفی ساخته می‌شود. این جنگل گروهی از درخت‌های تصمیم هستند که با یکدیگر آموزش داده می‌شوند و خروجی کلی از ترکیب خروجی این درخت‌های تصمیم محاسبه می‌شود. این ترکیب به مدل کمک می‌کند تا خروجی دقیق‌تر و پایدارتری داشته باشد. در شکل زیر نحوه ترکیب دو درخت تصمیم نشان داده شده است.

خاصیت تصادفی این مدل از این خاصیت نشأت می‌گیرد که این الگوریتم برخلاف درخت تصمیم به جای جستجو کردن به دنبال مهم‌ترین ویژگی‌ها، به دنبال بهترین ویژگی در میان مجموعه تصادفی از ویژگی‌ها می‌گردد. این ویژگی باعث می‌شود درخت‌های متعددی تشکیل شوند و در نهایت عملکرد مجموعه این درخت‌ها بهتر شود. به بیانی دیگر در جنگل تصادفی برای اولویت‌بندی ویژگی‌ها و قرار‌دادن آن‌ها در ساختار درخت از مجموعه تصادفی از ویژگی‌ها استفاده می‌شود. یکی از ویژگی‌های مهم در جنگل تصادفی ارایه یک اهمیت از تمام ویژگی‌هاست. در این الگوریتم اهمیت یک ویژگی با نگاه کردن به تعداد گره‌‌های درخت که از آن ویژگی خاص استفاده کرده‌اند اندازه‌گیری می‌شود. این امتیاز‌ها پس از آموزش برای هر ویژگی محاسبه می‌شوند و به این دلیل که این امتیاز‌ها نسبی است مجموع این اهمیت ها برابر یک است. از طریق بررسی این امتیاز‌ها می‌توان ویژگی‌هایی که اثر پایینی در فرآیند تصمیم‌گیری دارند را حذف کرد و بدین ترتیب تعداد ویژگی‌ها را کاهش داد.

اگرچه جنگل تصادفی از مجموعه چندین درخت تصمیم تشکیل می‌شود اما تفاوت‌هایی میان آن‌ها وجود دارد. درخت تصمیم اولویت ویژگی‌ها را در میان مجموعه تمام ویژگی‌ها تعیین می‌کند اما جنگل تصادفی این اولویت را در مجموعه تصادفی از ویژگی‌ها تعیین می‌کند. همچنین امکان دارد درخت تصمیم عمق زیادی داشته باشد و به دلیل استفاده از اولویت‌های پایین در ساختار درخت دچار بیش‌برازش شود. در مقابل جنگل تصادفی با استفاده از ویژگی‌ها و درخت‌های با عمق کمتر از این مشکل جلوگیری کند.

از مزایای جنگل تصادفی می‌توان به موارد زیر اشاره کرد:

  • جنگل تصادفی قابل استفاده برای هر دو کاربرد طبقه‌بندی و رگرسیون است.
  • تعداد پارامتر‌های این الگوریتم کم است و نحوه عملکرد آن به راحتی قابل درک است.
  • با استفاده از امتیاز‌های محاسبه شده توسط این الگوریتم می‌توان با استفاده از آستانه قرار دادن تعدادی از ویژگی‌ها را حذف کرد و از این الگوریتم به عنوان یک الگوریتم انتخاب ویژگی برای طبقه بند دیگر استفاده کرد.
  • آموزش این الگوریتم در مقایسه با روش‌های دیگر سریع است.

از معایب جنگل تصادفی می‌توان به موارد زیر اشاره کرد:

  • افزایش کارآیی این الگوریتم نیازمند افزایش تعداد درخت‌های جنگل تصادفی و افزایش عمق درخت‌ها است که باعث می‌شود الگوریتم کند‌تر شود و احتمال وقوع بیش برازش افزایش یابد.
  • جنگل تصادفی سرعت مناسبی دارد اما امکان دارد در کاربرد‌های خاص با داده‌‌های پیچیده سرعت بالا حائز اهمیت باشد و روش‌های سریع‌تر ترجیح داده‌شوند.

پست را به اشتراک بگذارید

در facebook به اشتراک بگذارید
در linkedin به اشتراک بگذارید
در twitter به اشتراک بگذارید
در email به اشتراک بگذارید

پست های مرتبط

ماشین بردار پشتیبان (SVM)

در اﯾﻦ اﻟﮕﻮرﯾﺘﻢ دسته‌بندی، دو ابرﺻﻔﺤﻪ در ﻣﺮز دو ﮐﻼس داده‌ها ﻗﺮار ﮔﺮﻓﺘﻪ می‌شود و ﻣﺴﺌﻠﻪ، ﯾﺎﻓﺘﻦ ﻣﺮز ﺣﺪاﮐﺜﺮي ﺑﯿﻦ اﯾﻦ دو ابرﺻﻔﺤﻪ و درنتیجه

شبکه عصبی بازگشتی LSTM

LSTM نوع خاصی از شبکه‌های عصبی بازگشتی است که برای حل مشکل گرادیان شبکه‌های عصبی بازگشتی قدیمی مطرح شد. این شبکه‌ها برای حذف ضرب‌های متوالی

شبکه‌های عصبی بازگشتی

در تمام شبکه‌های عصبی قدیمی و شبکه‌های عصبی کانولوشنی نگاشت‌های استاتیک داشتیم. با استفاده از شبکه‌های عصبی بازگشتی می‌توان خاصیت دینامیک را به شبکه اضافه

دیدگاه خود را بنویسید