5-6-6-مقایسه.نتایج.مرحله.بخشبندی.با.بکارگیری.بردارهای.ویژگی متفاوت………95
5-6-7-اثرجنسیت،گویندگان.برتشخیص.درست.مرزهای.بخش بندی………………96
5-6-8-دقت مرحله خوشهبندی بکارگیری ماشین بردار پشتیبان(SVM) با بردار ویژگی MFCC
5-6-9-دقت مرحله خوشه بندی ماشین بردار پشتیبان با بکارگیری بردار ویژگی root-MFCC …………………
5-6-10- اثر تغییر نوع تابع کرنل ماشین بردار پشتیبان بر روی دقت مرحله خوشه بندی…………98
5-7-خلاصه…………………………………………………………………………………..98
فصل ششم: جمع بندی و پیشنهادات
6-1-جمع بندی و خلاصه نتایج……………………………………………………….100
6-2-پیشنهادات………………………………………………………………………………101
منابع……………………………………………………………………………………………103
چکیده:
شناسایی گوینده یکی از مباحث مطرح در بحث پردازش گفتار می باشد. شناسایی گوینده عبارت است از فرایندی که طی آن با بهره گرفتن از سیگنال صحبت تشخیص دهیم چه کسی چه موقع واقعا صحبت می کند. هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و گفتار هرگوینده را برای سیستم برچسب گذاری نماید. یعنی مشخص نماید که کدام گوینده، در چه بازه هایی صحبت کرده است. امروزه این عمل با یک عنوان جدید که هر دو فرایند جداسازی و برچسب گذاری را در بر می گیرد بنام Speaker Diarization مشهور گشته است. هدف از بخش بندی تقسیم سیگنال گفتاری به بخش هایی است که تنها شامل گفتار یک گوینده هستند و هدف از خوشه بندی نیز شناسایی بخش های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست.
هدف از انجام این پایان نامه طراحی و پیاده سازی یک سیستم بخش بندی و خوشه بندی گوینده با بهره گرفتن از الگوریتم های جدید و همچنین بهبود نتایج این الگوریتم ها برای این موضوع می باشد. این سیستم باید بطور صحیح نقاط تغییر گوینده را بدون دانستن اطلاعات قبلی از گوینده تشخیص داده و در نهایت تمام قسمت های صوتی مربوط به یک گوینده را در یک خوشه قرار می دهد.
در این پایان نامه، سیستم تشخیص گوینده، از سه مرحله اصلی تشکیل شده است. درمرحله اول قسمت- های غیر گفتاری، از بخش های گفتاری فایل صوتی حذف می
این مطلب را هم بخوانید :
۱۶۰ هزار کیلومتر با تسلا S تاکسی؛ تجربه ای متفاوت از تکنولوژی آینده
شوند، تا دقت و سرعت عملیات سیستم در مراحل بعدی افزایش پیدا کند. سپس فایل گفتاری به بخش هایی همگن که در آن فقط گفتار یک گوینده وجود دارد، تقسیم می شود. در مرحله سوم با بهره گرفتن از خوشه بندی مناسب، بخش های گفتاری مرحله قبل، که متعلق به یک گوینده هستند، در یک خوشه جای می گیرند. جهت پیاده سازی سیستم از چهار نوع بردار ویژگی MFCC root-MFCC, TDC, و root-TDC و سه نوع پایگاه داده استفاده شده است و دقت مرحله بخش بندی 80% بوده است و دقت مرحله خوشه بندی نیز 59% با بهره گرفتن از ماشین بردار پشتیبان بدست آمده است.
فصل اول: معرفی سیستم های تشخیص گوینده