به عنوان یک دانشمند داده که با پایتون کار می کند، درک اهمیت انتخاب ویژگی هنگام ساخت یک مدل یادگیری ماشین بسیار مهم است. در مسائل علوم داده واقعی، تقریباً نادر است که همه متغیرهای مجموعه داده برای ساخت یک مدل مفید باشند. افزودن متغیرهای اضافی قابلیت تعمیم مدل را کاهش می دهد و همچنین ممکن است دقت کلی طبقه بندی کننده را کاهش دهد. علاوه بر این، افزودن متغیرهای بیشتر به یک مدل، پیچیدگی کلی مدل را افزایش میدهد.
طبق قانون صرفهجویی «تیغ اوکام»، بهترین توضیح برای یک مشکل، آن چیزی است که کمترین فرض ممکن را در بر میگیرد. بنابراین، انتخاب ویژگی به بخشی ضروری از ساخت مدلهای یادگیری ماشین تبدیل میشود.
انتخاب ویژگی در یادگیری ماشین چیست؟
هدف تکنیکهای انتخاب ویژگی در یادگیری ماشین یافتن بهترین مجموعه ویژگیهایی است که به فرد امکان میدهد مدلهای بهینهسازی شدهای از پدیدههای مورد مطالعه بسازد.
تکنیک های انتخاب ویژگی در یادگیری ماشینی را می توان به طور کلی به دسته های زیر طبقه بندی کرد:
تکنیکهای نظارت شده: این تکنیکها را میتوان برای دادههای برچسبگذاری شده و شناسایی ویژگیهای مرتبط برای افزایش کارایی مدلهای نظارت شده مانند طبقهبندی و رگرسیون استفاده کرد. به عنوان مثال - رگرسیون خطی، درخت تصمیم، SVM و غیره. برای مشاهده جدیدترین بازی های متاورس همراه ما باشید.
تکنیک های بدون نظارت: این تکنیک ها را می توان برای داده های بدون برچسب استفاده کرد. به عنوان مثال- خوشه بندی K-Means، تجزیه و تحلیل مؤلفه های اصلی، خوشه بندی سلسله مراتبی و غیره.
از دیدگاه طبقه بندی، این تکنیک ها به روش های فیلتر، بسته بندی، تعبیه شده و ترکیبی طبقه بندی می شوند.
اکنون، اجازه دهید برخی از این روشهای محبوب انتخاب ویژگی یادگیری ماشین را به تفصیل مورد بحث قرار دهیم.
انواع روش های انتخاب ویژگی در ML
روش های فیلتر
روشهای فیلتر، ویژگیهای ذاتی ویژگیهای اندازهگیری شده را از طریق آمار تک متغیره به جای عملکرد اعتبارسنجی متقابل، انتخاب میکنند. این روشها سریعتر و از نظر محاسباتی هزینه کمتری نسبت به روشهای wrapper دارند. هنگام برخورد با داده های با ابعاد بالا، از نظر محاسباتی استفاده از روش های فیلتر ارزان تر است.
بیایید برخی از این تکنیک ها را مورد بحث قرار دهیم:
به دست آوردن اطلاعات
بهره اطلاعات کاهش آنتروپی را از تبدیل یک مجموعه داده محاسبه می کند. می توان از آن برای انتخاب ویژگی با ارزیابی سود اطلاعات هر متغیر در زمینه متغیر هدف استفاده کرد.
انتخاب ویژگی - به دست آوردن اطلاعات
آزمون Chi-Square
آزمون Chi-square برای ویژگی های طبقه بندی شده در یک مجموعه داده استفاده می شود. ما بین هر ویژگی و هدف، Chi-square را محاسبه می کنیم و تعداد ویژگی های مورد نظر را با بهترین امتیازات Chi-square انتخاب می کنیم. به منظور اعمال صحیح مربع کای برای آزمایش رابطه بین ویژگیهای مختلف در مجموعه داده و متغیر هدف، شرایط زیر باید برآورده شود: متغیرها باید دستهبندی شوند، به طور مستقل نمونهبرداری شوند و مقادیر باید فرکانس مورد انتظار بیشتری داشته باشند. از 5.
انتخاب ویژگی - مربع چی
امتیاز فیشر
امتیاز فیشر یکی از پرکاربردترین روشهای انتخاب ویژگی تحت نظارت است. الگوریتمی که ما استفاده خواهیم کرد، رتبه های متغیرها را بر اساس امتیاز فیشر به ترتیب نزولی برمی گرداند. سپس می توانیم متغیرها را بر حسب مورد انتخاب کنیم.
انتخاب ویژگی - امتیاز فیشر
ضریب همبستگی
همبستگی معیاری از رابطه خطی بین 2 یا چند متغیر است. از طریق همبستگی، می توانیم یک متغیر را از دیگری پیش بینی کنیم. منطق پشت استفاده از همبستگی برای انتخاب ویژگی این است که متغیرهای خوب با هدف ارتباط زیادی دارند. علاوه بر این، متغیرها باید با هدف همبستگی داشته باشند اما بین خودشان همبستگی نداشته باشند.
اگر دو متغیر با هم مرتبط باشند، میتوانیم یکی را از دیگری پیشبینی کنیم. بنابراین، اگر دو ویژگی با هم مرتبط باشند، مدل فقط به یکی نیاز دارد، زیرا دومی اطلاعات اضافی اضافه نمی کند. ما در اینجا از همبستگی پیرسون استفاده خواهیم کرد.