پردازش صحبت

خلاصه
1397/08/08

پردازش صحبت پردازش صحبت اغلب در دو دسته ی ترکیب صحبت و تشخیص صحبت مورد بررسی قرار می گیرند

پردازش صحبت


الف: ترکیب و تشخیص صحبت:
پردازش صحبت اغلب در دو دسته ی ترکیب صحبت و تشخیص  صحبت مورد بررسی قرار می گیرند. ترکیب صحبت عبارت است از فن آوری تولید مصنوعی صحبت به وسیله ی ماشین و به طور عمده از پرونده های متنی به عنوان ورودی آن استفاده می گردد. در اینجا باید به یک نکته ی مهم اشاره شود که بسیاری از تولیدات تجاری که صدای شبیه به صحبت انسان ایجاد می کنند در واقع ترکیب صحبت انجام نمی دهند بلکه تنها یک تکه ی ضبط شده به صورت دیجیتال از صدای انسان را پخش می کنند. از کاربرد های عمده ی ترکیب  صحبت می توان به ایجاد ابزارهایی برای افراد دارای ناتوانی بینایی برای مطلع شدن از آن بر روی صفحه ی کامپیوتر می گذرد اشاره کرد.
تشخیص صحبت عبارت است از تشخیص کامپیوتری صحبت تولید شده توسط انسان و تبدیل آن به یک سری  فرامین یا پرونده های متنی.کاربرد های  عمده ی تشخیص صحبت دربر گیرنده ی بازه ی گسترده ای از سیستم ها و کاربرد ها از سیستم های دیکته ی کامپیوتری که در سیستم های آموزشی و همچنین سیستم های پردازش واژه کاربرد دارد.
ترکیب و تشخیص کامپیوتری صحبت مسائل دشواری هستند. روش های مختلف مورد آزمایش قرار گرفته اند که موفقیت کمی داشته اند. در حال حاضر ابزارهای برنامه نویسی جا افتاده در زمینه های بر شمرده می توان به ای.پی.آی صحبت شرکت مایکرو سافت اشاره نمود.
ب:مدلی برای توصیف روش تولید صحبت:
تقریبا تمام تکنیک های ترکیب و تشخیص صحبت بر اساس مدل تولید صحبت انسان ایجاد شده اند. بیشتر صداهای مربوط به صحبت انسان به دو دسته ی صدا دار  و سایشی تقسیم می شوند.
اصوات صدا دار وقتی که هوا از ریه ها و از مسیر تار های صوتی به بیرون دهان یا بینی رانده می شوند ایجاد می گردند. در یک سیستم اصوات صدا دار با یک مولد پالس  با پارامتر قابل تنظیم  فرکانس پایه موج صوتی تولید می شوند. در مقایسه  اصوات سایشی به صورت نویز تصادفی  و نه حاصل ارتعاش تارهای صوتی به وجود می آیند. این حادثه زمانی رخ می دهد که تقریبا جریان هوا به وسیله زبان و لب ها یا دندان ها حبس می شود که این امر  باعث ایجاد اغتشاش هوا در نزدیکی  محل فشردگی می گردد.اصوات سایشی مثل f، s.
در یک دوره ی کوتاه برای نمونه 25 میلی ثانیه یک سیگنال صحبت می تواند با مشخص کردن سه پارامتر تقریب زده شود:
الف: انتخاب یک اغتشاش متناوب یا نویزوار
ب: فرکانس موج تناوب
ج: ضرایب فیلتر دیجیتالی که برای تقلید پاسخ تارهای صوتی استفاده شده است.
پس به طور کل صوت هایی که واژگان و عبارات را می سازند، به طور الکترونیکی از اجزاء صوتی اصلی تشکیل می شوند.