گزارش طرح نرم افزار فناوری بازشناسی گفتار

خلاصه
1397/06/06

گزارش طرح نرم افزار فناوری بازشناسی گفتارعنوان طرح: فناوری بازشناسی گفتار مقاوم دربرابر نویز توضیح عمومی و کاربرد


گزارش طرح نرم افزار فناوری بازشناسی گفتار


عنوان طرح: فناوری بازشناسی گفتار مقاوم دربرابر نویز
 توضیح عمومی و کاربرد: با استفاده از این فناوری،  صدای ضبط شده توسط یک میکروفون بازشناسی شده و به فرامین برای یک دستگاه الکترونیکی یا رایانه، تبدیل می شوند حوزه کاربرد این فناوری تمامی دستگاه های الکتریکی، الکترونیکی و رایانه ای است که به طریقی از کاربر فرمان می گیرند. تمام فرامین قابل بیان با استفاده  از محموعه متناهی کلمات  گسسته را می توان با استفاده از این فناوری توسط میکروفون به دستگاه یا رایانه دارد.
-    مزایا در مقایسه با دیگر فناوری های مشابه : مهمترین خصوصیات این فناوری نیاز به توان پردازشی بسیار کم و مقاومت بسیار زیاد در مقابل سر و صدای محیط (نویز) است.
-    شرح طرح : روش ارائه شده از سه بخش اصلی  تشکیل شده است که عبارت  است از:
الف: بخش اول که وظیفه تبدیل سیگنال صوتی به داده ای قابل پردازش را برای دو بخش دیگر انجام می دهد.
 ب: بخش دوم که وظیفه یادگیری و توصیف کلمات را بر عهده دارد و با گرفتن نمونه های ضبط شده کلمات، الگوهای لازم برای باز شناسی را می سازد.      ج: بخش سوم که داده های گرفته شده از اول را با الگوهایی که در بخش دوم یاد گرفته شده اند مقایسه می کرده و شبیه ترین کلمه را انتخاب می کنند.
استخراج ویژگی ها از سیگنال صدا:
اولین مرحله در مراحل یادگیری و باز شناسی استخراج ویژگی ها از سیگنال صداست. برای انجام این کار باید مراحل زیر را طی کرد:
1.    استراج اسپکتروگرام صدا
2.    اعمال فیلترهای فیوزن ماکسیمم- آن بر روی فریم های  اسپکتروگرام تولید شده
3.    اعمال فیلترهای شناسایی یکنواختی در طول اسپکتروگرام
الف- اولین مرحله در بازشناسی صدا، تبدیل سیگنال های صدای ورودی به اسپکتروگرام با طول محدود است برای این کار با استفاده از الگوریتم  استاندارد FFT تبدیلات  فوریه پنجره هایی به طول 512 صدای ضبط شده با 128 فریم همپوشانی گرفته و در کنار یکدیگر قرار داده می شود در پایان این مرحله ، سیگنال یک بعدی صدا به تصویر دو بعدی تبدیل می شود.
ب- سومین مرحله  از بخش استخراج خصوصیات، فشرده سازی اسپکتروگرام در طول محور فرکانس است پس از اعمال این الگوریتم، مراحل تبدیل داده خام (سیگنال صدا) به داده آماده بازشناسی یا یادگیری ، تمام شده و می توان به یکی از دو بخش بعدی رفت. برای یادگیری الگوی