تکنیک‌های انتخاب ویژگی در یادگیری ماشین (به‌روزرسانی‌شده در سال 2023)

samad99 
  بازدید : 7357
سه شنبه 16 اسفند 1401 زمان : 0:11 


1
2
3
4
5

به عنوان یک دانشمند داده که با پایتون کار می کند، درک اهمیت انتخاب ویژگی هنگام ساخت یک مدل یادگیری ماشین بسیار مهم است. در مسائل علوم داده واقعی، تقریباً نادر است که همه متغیرهای مجموعه داده برای ساخت یک مدل مفید باشند. افزودن متغیرهای اضافی قابلیت تعمیم مدل را کاهش می دهد و همچنین ممکن است دقت کلی طبقه بندی کننده را کاهش دهد. علاوه بر این، افزودن متغیرهای بیشتر به یک مدل، پیچیدگی کلی مدل را افزایش می‌دهد.

طبق قانون صرفه‌جویی «تیغ اوکام»، بهترین توضیح برای یک مشکل، آن چیزی است که کمترین فرض ممکن را در بر می‌گیرد. بنابراین، انتخاب ویژگی به بخشی ضروری از ساخت مدل‌های یادگیری ماشین تبدیل می‌شود.

انتخاب ویژگی در یادگیری ماشین چیست؟

هدف تکنیک‌های انتخاب ویژگی در یادگیری ماشین یافتن بهترین مجموعه ویژگی‌هایی است که به فرد امکان می‌دهد مدل‌های بهینه‌سازی شده‌ای از پدیده‌های مورد مطالعه بسازد.

تکنیک های انتخاب ویژگی در یادگیری ماشینی را می توان به طور کلی به دسته های زیر طبقه بندی کرد:

تکنیک‌های نظارت شده: این تکنیک‌ها را می‌توان برای داده‌های برچسب‌گذاری شده و شناسایی ویژگی‌های مرتبط برای افزایش کارایی مدل‌های نظارت شده مانند طبقه‌بندی و رگرسیون استفاده کرد. به عنوان مثال - رگرسیون خطی، درخت تصمیم، SVM و غیره. برای مشاهده جدیدترین بازی های متاورس همراه ما باشید.

تکنیک های بدون نظارت: این تکنیک ها را می توان برای داده های بدون برچسب استفاده کرد. به عنوان مثال- خوشه بندی K-Means، تجزیه و تحلیل مؤلفه های اصلی، خوشه بندی سلسله مراتبی و غیره.

از دیدگاه طبقه بندی، این تکنیک ها به روش های فیلتر، بسته بندی، تعبیه شده و ترکیبی طبقه بندی می شوند.

اکنون، اجازه دهید برخی از این روش‌های محبوب انتخاب ویژگی یادگیری ماشین را به تفصیل مورد بحث قرار دهیم.

انواع روش های انتخاب ویژگی در ML

روش های فیلتر

روش‌های فیلتر، ویژگی‌های ذاتی ویژگی‌های اندازه‌گیری شده را از طریق آمار تک متغیره به جای عملکرد اعتبارسنجی متقابل، انتخاب می‌کنند. این روش‌ها سریع‌تر و از نظر محاسباتی هزینه کمتری نسبت به روش‌های wrapper دارند. هنگام برخورد با داده های با ابعاد بالا، از نظر محاسباتی استفاده از روش های فیلتر ارزان تر است.

بیایید برخی از این تکنیک ها را مورد بحث قرار دهیم:

به دست آوردن اطلاعات

بهره اطلاعات کاهش آنتروپی را از تبدیل یک مجموعه داده محاسبه می کند. می توان از آن برای انتخاب ویژگی با ارزیابی سود اطلاعات هر متغیر در زمینه متغیر هدف استفاده کرد.

انتخاب ویژگی - به دست آوردن اطلاعات

آزمون Chi-Square

آزمون Chi-square برای ویژگی های طبقه بندی شده در یک مجموعه داده استفاده می شود. ما بین هر ویژگی و هدف، Chi-square را محاسبه می کنیم و تعداد ویژگی های مورد نظر را با بهترین امتیازات Chi-square انتخاب می کنیم. به منظور اعمال صحیح مربع کای برای آزمایش رابطه بین ویژگی‌های مختلف در مجموعه داده و متغیر هدف، شرایط زیر باید برآورده شود: متغیرها باید دسته‌بندی شوند، به طور مستقل نمونه‌برداری شوند و مقادیر باید فرکانس مورد انتظار بیشتری داشته باشند. از 5.

انتخاب ویژگی - مربع چی

امتیاز فیشر

امتیاز فیشر یکی از پرکاربردترین روش‌های انتخاب ویژگی تحت نظارت است. الگوریتمی که ما استفاده خواهیم کرد، رتبه های متغیرها را بر اساس امتیاز فیشر به ترتیب نزولی برمی گرداند. سپس می توانیم متغیرها را بر حسب مورد انتخاب کنیم.

انتخاب ویژگی - امتیاز فیشر

ضریب همبستگی

همبستگی معیاری از رابطه خطی بین 2 یا چند متغیر است. از طریق همبستگی، می توانیم یک متغیر را از دیگری پیش بینی کنیم. منطق پشت استفاده از همبستگی برای انتخاب ویژگی این است که متغیرهای خوب با هدف ارتباط زیادی دارند. علاوه بر این، متغیرها باید با هدف همبستگی داشته باشند اما بین خودشان همبستگی نداشته باشند.

اگر دو متغیر با هم مرتبط باشند، می‌توانیم یکی را از دیگری پیش‌بینی کنیم. بنابراین، اگر دو ویژگی با هم مرتبط باشند، مدل فقط به یکی نیاز دارد، زیرا دومی اطلاعات اضافی اضافه نمی کند. ما در اینجا از همبستگی پیرسون استفاده خواهیم کرد.

برچسب ها ان اف تی , NFT , متاورس ,

نام کاربری :
رمز عبور :
تکرار رمز عبور :
ایمیل :
نام و نام خانوادگی :
کد امنیتی :