نوع مدرک: | متون چاپی |
سرشناسه | رحیمی پور ، محمدحسین، نویسنده |
شماره بازیابی : | COM A 41 1402 |
عنوان : | استفاده از مدل ویسپر برای شناسایی خودکار گفتار فارسی |
عنوان موازی : | Persian Automatic Speech Recognition by the use of Whisper Model |
ناشر: | دانشگاه شهید اشرفی اصفهانی: اصفهان |
سال نشر : | 1402 |
صفحه شمار: | 54ص |
شابک/شاپا | 25528 |
یادداشت | پایان نامه کارشناسی ارشد :رشته مهندسی کامپیوتر گرایش هوش مصنوعی و رباتیکز |
شناسه افزوده : | راستین ، نیلوفر، استاد راهنما |
توصیفگرها | شناسایی خودکار گفتار، ترانسفورمرها، یادگیری عمیقAutomatic speech recognition, Transformers, Deep learning, Natural Language Processing, Whisper model، پردازش زبان طبیعی، مدل ویسپر |
چکیده : | تشخیص خودکار گفتار رایانهها را قادر میسازد تا گفتار انسان را به شکل نوشتاری پردازش کنند. با توجه به اینکه زبان فارسی دارای ویژگیهای پیچیده واجی و خط غیر لاتین فارسی میباشد، چالشهای منحصر به فردی را در این زمینه ایجاد میکند. در این پژوهش، از مدل ویسپر برای شناسایی خودکار گفتار فارسی استفاده میشود. در این مدل معماری ترانسفورمرها به کار گرفته شده است که یک نوع معماری شبکه عصبی است که به طور گسترده در پردازش زبان طبیعی استفاده میشود. ترانسفورمرها قادر به تجزیه و تحلیل زبان انسان هستند و بر اساس بررسی بخشهای مختلف یک جمله و ارتباط آنها با یکدیگر، کار میکنند. مدل ویسپر با استفاده از تکنیکهای پیشرفته یادگیری عمیق و آموزش بر روی یک مجموعه داده گسترده چند زبانه، عملکرد استثنایی در تشخیص خودکار گفتار نشان داده است. مجموعه داده مورد استفاده در این پژوهش، صدای مشترک موزیلا میباشد که شامل 394 ساعت داده برای زبان فارسی است. در این مطالعه با تنظیم دقیق مدل ویسپر به همراه پیش پردازش دادهها، افزایش دادهها و تنظیم هایپرپارامترها توانستیم به بهبود عملکرد این مدل کمک کنیم. نتایج نشان دادند که استفاده از این مدل قدرتمند در تشخیص خودکار گفتار فارسی به بهبود قابل توجهی در این زمینه (نرخ خطای کلمه برابر با27.151) منجر میشود. برای پیشبرد تحقیقات در این زمینه، تمام کد منبع روش پیشنهادی را در گیتهاب در دسترس قرار داده شده است: https://github.com/mohammadh128/Persian_ASR |
لینک ثابت رکورد: | ../opac/index.php?lvl=record_display&id=14365 |
زبان مدرک : | فارسی |