دانشكده تحصیلات تكمیلی
“M.Sc” پایان نامه برای دریافت درجه كارشناسی ارشد
مهندسی برق – الكترونیك
عنوان:
ارتقای فشرده سازی سیگنال گفتار با بهره گرفتن از چندی كننده های برداری عصبی
برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی شود
تکه هایی از متن به عنوان نمونه :
چكیده
پارامترهای كدكردن براساس پیشبینی خطی یا ضرایب LPC بطور گسترده در فشرده سازی سیگنال گفتار مورد استفاده قرار میگیرد. از سوی دیگر، شبكه های عصبی مصنوعی به عنوان سیستم هوشمندی هستند كه میتوانند در سیستمهای خطی و غیرخطی مانند كدینگ گفتار و تصویر بكار روند. در این تحقیق دو نمونه از شبكه های عصبی مبتنی بر تكنیک چندی سازی برداری به نامهای شبكه كوهنن و ARTMAP معرفی میشوند، كه از آنها برای دسته بندی بردارهای حاصل از پردازش سیگنال گفتار ورودی استفاده میشود، در این تكنیک با بهره گرفتن از زوجهای خط طیفی (LSP) بعنوان یک پارامتر قابل جایگزینی بجای ضرایب LPC میتوان نرخ بیت را كاهش داد در حالیكه كیفیت گفتار سنتز شده تقریباً حفظ میشود و این بدلیل این است كه وقتی از پارامترهای LSP استفاده میشود، فركانس های فرمنت (Formant) خوبی بدست می آید كه مشابه فركانسهای اصلی سیگنال گفتار میباشد. با این روش، نرخ بیت با توجه به واكدار یا بی واك بودن قاب گفتار مربوطه بین 2 تا 33 درصد كاهش می یابد. همچنین در این تحقیق شبكه های عصبی كوهنن و نظریه تشدید تطبیقی به
عنوان دو شبكه عصبی بدون سرپرست و روش چندی سازی بردارهای یادگیری به عنوان یک شبكه عصبی با سرپرست معرفی و نتایج حاصل از هریک با هم مقایسه میشوند. نمونه های صوتی بكار رفته نیز به زبان فارسی میباشند.
مقدمه
اخیراً اكثر تكنیک هایی كه برای فشرده سازی سیگنال گفتار بكار میروند، براساس پیش بینی خطی ساختار یافته اند. سیگنال گفتار بعنوان یک ابزار مهم در ارتباطات انسان در فناوری های دیجیتالی مورد توجه خاص قرار گرفته است. نرخ بیت سیگنال گفتار ارسال شده باید كاهش یابد. سیگنال گفتار یک سیگنال پیوسته و غیرخطی بوده كه بصورت فیزیكی توسط لوله صوتی انسان تولید و شكل داده میشود، بنابراین ویژگی های سیگنال گفتار به حركات لوله صوتی در طول زمان و همچنین مشخصات گوینده بستگی دارد. تبدیل پارامترهای LPC به LSP كارایی كدكننده های با نرخ بیت كم را بهبود میبخشد.
پارامترهای LSP فركانس های فرمنت لوله صوتی را بصورت ریاضی مدلسازی میكنند. ازسوی دیگر شبكه های عصبی به عنوان ابزاری موفق تاكنون در كاربردهای گوناگونی از پردازش گفتار و زبان مورد استفاده قرار گرفته اند. در این راستا كاربردهای بازشناسی خودكار گفتار (ASR)، سنتز گفتار طبیعی و پردازش زبان طبیعی (NLP) به عنوان نمونه
این مطلب را هم بخوانید :
بایگانیهای آموزشی - مرجع مقالات
هایی كه توسط مؤلف برای زبان فارسی تجربه شده اند، قابل ذكر است. برای كدكننده های گفتار نیز شبكه های عصبی در حوزه كاری مورد استفاده قرار گرفته اند: پیش بینی كننده های نورونی برای بهبود كیفیت و كاهش پیچیدگی محاسباتی در كدكننده ها. در این تحقیق یک روش جدید برای كد كردن گفتار با نرخ بیت كم معرفی میشود كه از پارامترهای LSP برای استخراج و نگاشت ویژگیهای سیگنال گفتار با بهره گرفتن از نوعی شبكه عصبی مصنوعی بنام شبكه خود سازمانده (SOM) استفاده میكند. استفاده از این روش نرخ بیت گفتار بازسازی شده را كاهش می دهد، در حالی كه كیفیت سیگنال تفاوت آشكاری با گفتار اصلی ندارد. برای اندازه گیری كیفیت گفتار سنتز شده از معیار میانگین امتیاز آرا داده شده (MOS) استفاده می شود.