نوع مدرک: | متون چاپی |
سرشناسه | جلالپور ، زهره، نویسنده |
ردهبندی کنگره : | COM soft 49 |
عنوان : | بهبود فرآیند تشخیص ناهنجاری داده¬ای در الگوریتم های خوشهبندی در دادههای بزرگ |
عنوان موازی : | Improving the detecting data Anomaly in clustering algorithms on big data |
ناشر: | دانشگاه شهید اشرفی اصفهانی: اصفهان |
سال نشر : | 1401 |
صفحه شمار: | 66ص |
شابک/شاپا | 24534 |
یادداشت | پایان نامه کارشناسی ارشد:رشته مهندسی کامپیوتر گرایش نرم افزار |
شناسه افزوده : | نعمت بخش ، ناصر، استاد راهنما یراقی ، شکوفه، استاد مشاور |
توصیفگرها | خوشه بندی، داده های پرت، ناهنجاری های داده ها، داده های حجیم Clustering, Big Data |
چکیده : | خوشهبندی یکی از شاخههای یادگیری بدون نظارت میباشد و فرآیند خودکاری است که در طی آن، نمونهها به دستههایی که اعضای آن مشابه یکدیگر میباشند تقسیم میشوند. خوشهبندی با نمونه¬های دیگر تقسیم داده¬ها از جمله طبقهبندی متفاوت است. در طبقهبندی نمونههای ورودی برچسبگذاری شده¬اند ولی در خوشهبندی نمونههای ورودی دارای برچسب اولیه نمیباشند و این موضوع پیچیدگی ساختاری و نحوه¬ی استفاده از خوشه-بندی را با چالش¬های متعددی رو به رو کرده است. یکی از مشکلات عمده خوشه¬بندی خصوصاً در داده¬های بزرگ داده¬های پرت و ناهنجاری¬ها هستند. دادههای پرت در بعضی مواقع میتوانند عملکرد نهایی مدل را با اختلال رو به رو کند و خوشه¬بندی در قالب پیش¬پردازش ظاهر شود و در بعضی مواقع هم خود مسئله تشخیص دادههای پرت و به نوعی تشخیص ناهنجاری است که در آن ما به دنبال یافتن دادههایی هستیم که الگویی متفاوت از دیگر داده¬ها را دارند. در کنار داده¬های پرت باید به ناهنجاری¬های داده¬ای نیز اشاره کرد. در واقع ناهنجاری¬ها نمونهها، رویدادها یا مشاهداتی هستند که با الگوها یا دیگر نمونههای موجود در مجموعه داده مطابقت نداشته باشند. ناهنجاریها را میتوان در حالت کلی در سه دسته¬ی ناهنجاریهای نقطه ای، ناهنجاریهای زمینهای، ناهنجاریهای تجمعی قرار داد. روش پیشنهادی در این تحقیق از دو بخش پیش پردازش و تشخیص و جداسازی تشکیل شده است. در بخش پیش¬پردازش یک مرحله پاکسازی (حذف داده¬های گم شده و غیره) نرمال سازی داده¬ها (یکسان سازی مقیاس داده¬ها) و کاهش ابعاد بردارهای ویژگی انجام شده است و در بخش تشخیص و جداسازی، پس از خوشه¬بندی داده¬ها مرتب سازی و برچسب¬زنی انجام شده است. ارزیابی روش پیشنهادی با داده¬های Crime in Atlanta نشان می¬دهد که روش پیشنهادی در مقایسه با دو روش OCSVM و رگرسیون با معیار دقت، زمان و منابع مصرفی بهبود چشمگیری داشته است |
لینک ثابت رکورد: | ../opac/index.php?lvl=record_display&id=13609 |
زبان مدرک : | فارسی |