تکنولوژی بازشناسی گفتار

خلاصه
1397/08/08

تکنولوژی بازشناسی گفتار، شیوه ای جدید برای تشخیص پیام ها و دستورهای صوتی و حاصل پژوهش جمعی از متخصصین دانشگاه صنعتی شریف در زمینه پردازش گفتار است.

تکنولوژی بازشناسی گفتار


تکنولوژی بازشناسی گفتار، شیوه ای جدید برای تشخیص پیام ها و دستورهای صوتی و حاصل پژوهش جمعی از متخصصین دانشگاه صنعتی شریف در زمینه پردازش گفتار است. نگارندگان این مقاله، توانسته اند نرم افزارهایی طراحی و پیاده سازی کند که بتواند قابلیت های طرح را در سیستمی که از لحاظ سخت افزاری کوچک و از نظر هزینه مقرون به صرفه است، پیاده سازی کند. ویژگی های منحصر به فرد این طرح آن را از جدیدترین فناوری های موجود دنیا در زمینه پردازش گفتار متمایز می کند.
از جمله ویژگی های این طرح می توان به موارد زیر اشاره کرد:
•قابل اجرا بر روی رایانه یا سخت افزاری مستقل
•سهولت استفاده
•هزینه اندک پیاده سازی
•عدم وابستگی به هیچ نوع زبان با گویشی
•عدم حساسیت به سر و صدای محیط
•امکان تعریف دستورهای صوتی، مطابق با سلیقه کاربرد
فناوری بازشناسی گفتار، بر پایه این ویژگی ها در طیف گسترده ای از محصولات قابل استفاده است. نمونه هایی از زمینه های کاربرد آن عبارتند از :
•خودروها
•لوازم خانگی الکتریکی و الکترونیکی
•اسباب بازی ها،عروسک ها و سرگرمی های رایانه ای
•سیستم دیاتر افراد کم توان و سالخورده
•نرم افزارهای رایانه ای مدیریتی
•سیستم آموزش زبان
به عنوان نمونه از این نرم افزار در دادن فراموین صوتی به خودرو ویژه هنگامی که راننده مشغول رانندگی است و نمی تواند کار دیگر انجام دهد، استفاده می شود فرامین صوتی شامل موراد ذیل می شوند:
1.تنظیم آینه های بغل و عقب
2.کنترل بالابر شیشه ها
3.کنترل قفل کودک
4.کنترل روغن ترمز و موتور یا بنزین در حال حرکت
5.کنترل رادیو یا هر نوع رسانه دیگر در خودرو
6.کنترل برف پاکن ها
7.تنظیم صندلی ها
8.کنترل چراغ ها
9.هر نوع دستور دیگر که انجام آن نیازمند حرکت اضافی راننده و یا سرنشینان است.
این نرم افزار به خوبی در محیط پرنویز، عمل می کند مثلا در خودرویی با سرعت 100کیلومتر در ساعت با شیشه های باز و در بزرگراه تست شده و پاسخ مناسب گرفته است.دیگر مزیت این نرم افزار،حجم بسیار پایین آن است که به راحتی قابل برنامه ریزی بر روی یک ای سی است (نسخه دمو روی PC) به راحتی تا 100 فرمان را پردازش می کند)نرم افزار مورد بحث، با این مشخصات در ایران مشابه ندارد و موراد موجود در دنیا نیز مانند فرمانی توسط صدا حداقل نیاز به پردازنده پنتیوم با حجم زیاد حافظه دارند. نکته دیگر اینکه این نرم افزار، هوشمند بوده و قابل آموزش دادن است و پس از آموزش (مثلا با صدای اعضای خانواده) صدای هر کدام از آن ها را که بشوند( و در کل هر زمانی که کلمه یا فرمانی را بشوند) مستقل از این که چه کسی آن را ادا کرده است( صدای زن یا مرد، کلفت یا نازک) فرمان را اجا می کند. دیگر مزیت این نرم افزار، حجم بسیار پایین آن است که به راحتی قابل برنامه ریزی بر روی یک ای سی است ( نسخه دمو روی کامپیوتر جیبی به راحتی تا 100فرمان را پردازش می کند.