سیستم های تشخیص گفتار تقسیم بندی بر اساس عملکرد

خلاصه
1397/06/04

سیستم های تشخیص گفتار: تقسیم بندی بر اساس عملکردشرکت مهندسي آبان رايان البرز


سیستم های تشخیص گفتار: تقسیم بندی بر اساس عملکرد


فناوری تشخص گفتار بر اساس سه معیار قابل بررسی و طبقه بندی است:
الف: تعداد گویندگان
ب: شیوه صحبت کردن
ج: اندازه بانک واژگان
که در ادامه به توضیح هر یک پرداخته می شود.
تعداد گویندگان
همانطور که قبلا نیز اشاره شد،درونداد اطلاعات در این سیستم به صورت صوتی-گفتار انسان است. بسته به اینکه سیستم برای استفاده تعداد محدودی گوینده طراحی شده باشد یا نه، این سیستم به دو دسته "وابسته به گوینده" و "مستقل از گوینده" تقسیم می شوند.
در سیستم های وابسته به گوینده، سیستم هر صدایی را تشخیص نمی دهد بلکه فقط صداهایی که قبلا آموزش آن را دیده است را تشخیص می دهد بدین صورت که شخص با ایجاد یک پروفایل صوتی از صدای خود، صدای خود را به سیستم آموزش می دهدو سیستم نیز با مراجعه به این پروفایل بار دیگر آن را تشخیص می دهد. این سیستم ها دقیق ترند.
اما سیستم های مستقل از گوینده طوری طراحی می شوند که سیستم قادر باشد هر نوع صدایی را تشخیص دهد.
شیوه ی صحبت کردن
نحوه ی صحبت کردن گوینده می تواند به دو صورت "گفتار گسسته" و یا "گفتار پیوسته"باشد.
در سیستم های مبتنی بر گفتار گسسته گوینده کلمات را جدا جدا و با مکث حداقل 200میلی ثانیه بین آن ها ادا می کند تا سیستم کلمات را به صورت مجزا تشخیص دهد در این نوع سیستم بانک واژگان شامل کلماتی  است که برای سیستم از قبل تعریف شده است. وقتی که سیستم مبتی بر گفتار پیوسته باشد، مرز کلمات گوینده واضح نیست که در این صورت برای انطباق گفتار با بانک واژگان، بانک واژگان از "واجهای" زبان تعریف شده تشکیل شده است.
اندازه باک واژگان
اندازه بانک واژگان، از نظر  واژگان ذخیره شده در سیستم " محدود" و یا "بزرگ" است. که بین نوع سیستم از نظر وابستگی به گوینده و اندازه بانک واژگان رابطه معکوس وجود دارد. در سیستم های وابسته به گوینده اندازه بانک واژگان  بزرگ و تعداد کمی کاربر با این برنامه کار می کنند به بهترین نحو ممکن جوابگو  هستند. در حالی که این سیستم ها با سطح دقتی مناسب کار می کنند و دارای هزاران کلمه هستند باید طوری تنظیم شوند که با تعداد کوچکی از کاربران اصلی کار کنند و میزان دقت این سیستم ها تا حد بسیار زیادی به کاربر بستگی دارد. در سیستم هایی که مستقل  از گوینده عمل می کنند، تعداد کاربران زیاد است اما تعداد واژگان اندک است. در این سیستم ها محدود به تعداد اندکی از فرامین و ورودی های از پیش تعریف شده نظیر گزینه های ابتدایی و اعداد است.