لینک پرداخت و دانلود *پایین مطلب*
فرمت فایل:Word (قابل ویرایش و آماده پرینت)
تعداد صفحه:138
فهرست و توضیحات:
فصل اول مقدمه:
روش همبستگی
مرتبه پیشگو
کوانتیزاسیون برداری
فصل سوم: انحراف پویای زمانی (Dynamic time warpping)
مقدمه:
بازشناسی گفتار به صورت خودکار دارای جنبههای کاربردی فراوانی است و سالها روی آن تحقیق شده است. یک روش شناخته شده خوب در حوزة بازشناسی گفتار بر مبنای این اصل کار میکند که برای هر کلمه یک یا دو الگوی اکوستیکی ذخیره میشود. روند بازشناسی گفتار به این صورت است که صدای ورودی با الگوهای از پیش ذخیره شده، تطبیق داده میشود، الگویی که دارای کمترین فاصلة اندازهگیری شده با صدای ورودی باشد به عنوان کلمة تشخیص داده شده، معین میگردد. یک الگوریتم که برای پیدا کردن بهترین تطابق، یا همان کوچکترین فاصله بکار میرود انحراف پویای زمانی میباشد. این الگوریتم بر مبنای برنامه ریزی پویا کار میکند.
هدف این فصل معرفی الگوریتم انحراف پویای زمانی، ویژگیها و انواع آن میباشد.
صوت یک پدیدة وابسته به زمان میباشد. ممکن است چندین کلمه بیان شده توسط یک نفر یا نفرات مختلف طولهای مختلفی داشته باشند و گفتارهای مربوط به یک کلمه با طول مساوی ممکن است در وسط کلمه با هم فرق کنند که این به دلیل تلفظ بخشهای مختلف کلمه با سرعتهای متفاوت میباشد.
برای بدست آوردن فاصلة نهایی بین دو الگوی صحبت (که هر کدام شامل یک رشته بردار ویژگی میباشند)، باید هم ترازی زمانی صورت پذیرد.
- هم ترازیسازی زمانی و نرمالیزاسیون
دو الگوی X و Y را در نظر بگیرید، که هر کدام از این الگوها شامل بردارهای و میباشند که در آن نشان دهندة پارامترهای زمان کوتاه اکوستیکی صوت میباشند. در این جا ماتریس ویژگی هیچ تفاوتی نمیکند، و میتواند هر مشخصة طیف فرکانسی از سیگنال صحبت باشد.
ما از و برای نشان دادن اندیکی مربوط به زمان X و Y استفاده میکنیم. نیازی به دانستن نمیباشد. عدم تشابه بین X و Y توسط تابع اندازهگیری اعوجاج طیف یک فریم زمان کوتاه مدت بیان میشود.
این تابع را با نشان میدهیم که برای سادگی به صوت بیان میکنیم.
که در آن میباشد.
شاید، ساده ترین روش برای حل مسأله هم تراز سازی زمانی و نرمالیزاسیون، بکار بردن روش نرمالیزاسیون خطی باشد. در نرمالیزاسیون خطی، عدم تشابه و اختلاف بین X و Y به صورت زیر به سادگی بیان میشود.
(به دلیل اینکه و هر دو عدد صحیح هستند باید عملیات round-off صورت پذیرد)
عملیات جمع میتواند از تا صورت بپذیرد که این بستگی به جهت دلخواه در نرمالیزاسیون دارد. در رابطة بالا ما از d برای نشان دادن تابع اعوجاج بین دو جملة طیف فرکانسی استفاده نمودیم.
نرمالیزاسیون خطی، الزاماً فرض میکنید تغییرات نرخ گفتن متناسب است با زمان و طول کلمه، و از خود صوت مستقل است. بنابراین برای اندازهگیری اعوجاج، فقط تفاوت بین نقاطی که روی خط راست قطری مستطیل قرار دارند محاسبه خواهد شد. (شکل ). هر نقطه روی قطر مستطیل بیان گر d(ix,iy) میباشد که این مقدار فاصلة طیفی
تحقیق درباره صحت گفتار چیست