دانشکده تحصیلات تکمیلی
پایان نامه برای دریافت درجه کارشناسی ارشد
الکترونیک – مهندسی برق
عنوان:
به کارگیری ساختار آمیختار عصبی – آماری برای به هنجارسازی اطلاعات فرمنت ها در بازشناسی گفتار
برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی شود
تکه هایی از متن به عنوان نمونه :
چکیده
علیرغم تاثیر مثبت حالت گفتار در انتقال مفهوم درست جمله به شنونده، این تغییر به سبب تحول بنیادینی که در پارامترهای گفتار ایجاد می نماید، موجب افت شدید نرخ بازشناسی گفتار با مدل های عادی می گردد. به منظور رشد نرخ بازشناسی گفتار فارسی با حالت، از چند سال گذشته تحقیقاتی آغاز شده و در نخستین گام با افزودن فرمنت های اول تا سوم – یا شیب آنها – به انتهای بردار ویژگی نرخ بازشناسی گفتار کمی بهبود یافته است.
در این گزارش ابتدا با بهره گرفتن از شبکه های عصبی مصنوعی، فرمنت های گفتار با حالت را به فرمنت گفتار عادی به هنجار نموده و با اضافه نمودن فرمنت به هنجار شده به انتهای بردار ویژگی، رشد نرخ بازشناسی مشاهده شده است. در ادامه با بهره گرفتن از نسبت فرمنت های گفتار با حالت به گفتار عادی در تکنیک های پیچش فرکانسی و به هنجارسازی طول لوله صوتی – به هنجارسازی گوینده – به صورت مستقیم، بلوک های سیستم بازشناسی گفتار را تغییر داده و با استخراج ضرایب جدید کپسترال، درصد جملات
صحیح شناخته شده افزایش یافته است.
مقدمه
بازشناسی خودکار گفتار (ASR) به فرایندی گفته می شود که گفتار انسان را به متن یا فرمان معادل تبدیل می کند. این مسئله رایانه ها یا ماشین ها را قادر می سازد تا گفتار انسان را بشنوند و در مقابل آن واکنش مناسب نشان دهند، مسئله ای که منجر به برقراری ارتباط سریع و آسان با ماشین های اطراف شده و انسان را از دکمه ها و کلیدها برای برقراری ارتباط بی نیاز می سازد.
در حقیقت بازشناسی گفتار تبدیل یک سیگنال صوتی به رشته ای از لغات می باشد. این کار فرایندی بسیار پیچیده است که علت آن پیچیدگی اندام های تولید کننده و تشخیص دهنده گفتار در انسان و ناشناخته بودن نحوه عملکرد آنهاست. مسائل مختلفی مانند تفاوت صدای کاربران مختلف، نوع بیان کلمات، نویزها و شرایط محیطی، تعداد کلمات مورد نظر و معنی و مفهوم گفتار، پیچیدگی سیستم های تشخیص گفتار را تعیین می کنند.
از میان رویکردهای مختلفی که برای بازشناسی گفتار وجود دارد، رویکرد مبتنی بر بازشناسی الگو موفق ترین آنهاست و تقریبا تمامی سیستم های موفق امروزی براساس آن عمل می
این مطلب را هم بخوانید :
۱۰ نکتهای که بهتر است قبل از تجربه Red Dead Redemption 2 یاد بگیرید
کنند. در این رویکرد، گفتار به کمک تعدادی واحد آوایی (مانند کلمه، هجا، سه واجی یا واج) مدل می شود و در بازشناسی نیز از تشخیص این واحدها و کنار هم قرار دادن آنها، متن متناسب با گفتار تشخیص داده می شود. سیستم های بازشناسی گفتار با این رویکرد دارای دو فاز آموزش و آزمون می باشند که در فاز آموزش الگوهای مربوط به هر کلاس که همان واحدهای آوایی هستند، با بهره گرفتن از روش هایی مدلسازی می شوند. مقایسه گفتار ورودی با الگوهای آموزش داده شده جهت تشخیص واحدهای آوایی موجود در گفتار ورودی، در فاز آزمون انجام می گردد. در فاز آموزش معمولا دو نوع مدل آوایی و زبانی آماده می شود که در فاز آزمون از آنها استفاده شود. استخراج مدل های آوایی از روی دادگان گفتاری با بهره گرفتن از روش های مختلفی امکانپذیر است که از مهمترین آنها می توان روش های مدل پیچش زمانی پویا یا DTW (که در گوشی های تلفن همراه برای شماره گیری صوتی با بیان نام فرد به کار می رود)، شبکه عصبی مصنوعی و مدل مخفی مارکوف (HMM) را نام برد. از میان این روش ها، مدل مخفی مارکوف به نسبت سایرین موفق تر عمل کرده و عمده سیستم های کاربردی امروزی از آن استفاده می نمایند.
یکی از ویژگی های مهم گفتار، حالت گفتار فرد می باشد. به عبارت دیگر انتقال حالت درونی فرد به شنونده در مکالمات اهمیت بسزایی دارد زیرا اگر حالت بیان یک جمله تغییر کند، آن عبارت می تواند مفهوم متفاوت و یا حتی متناقض پیدا کند. اعمال حالت و یا تاکید به گفتار موجب تغییرات اساسی در پارامترهای استخراج شده از گفتار گردیده و بازشناسی گفتار با حالت را با چالشی بزرگ مواجه نموده و نرخ بازشناسی را کاهش می دهد.
برخلاف زبان انگلیسی که سابقه کار در زمینه بازشناسی گفتار برای آن به حدود پنج دهه پیش برمی گردد، کارهای انجام شده در این زمینه برای زبان فارسی قدمتی به اندازه کمتر از دو دهه دارد. شروع فعالیت های تحقیقاتی در زمینه بازشناسی گفتار روی زبان فارسی در داخل کشور به اوایل دهه 70 شمسی برمی گردد که عمده کارهای انجام شده نیز به صورت تحقیقات دانشگاهی پراکنده بوده است. با تاسیس “پژوهشکده پردازش هوشمند علائم” در اواسط سال 1371 و شکل گیری پردازش گفتار به همراه گروهی جهت تهیه دادگان صوتی، جهشی نسبتا جدی به سوی داشتن چنین تکنولوژی برای زبان فارسی صورت گرفت. تهیه دادگان های گفتاری مختلف از جمله فارس دات (FarsDat) برای محیط عادی در سال 1375 و برای گفتار تلفنی (TFarsDat) در سال 1378 از کارهای اساسی این پژوهشکده در این زمینه بوده است.