جدول 1-۱: مقایسه ویژگیهای دو ارتباط هممرجع وپیشایند…………………………… ۱1
جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک…………………………………………….. 23
جدول 2-۲: برخی از ویژگیهای ارائه شده در تحلیل مرجع مشترک…………………… 30
جدول 2-۳: معرفی برخی از پژوهشهایی که از خوشهبندی استفاده کردهاند…………………… 55
جدول 2-4: مشخصات مربوط به انواع موجودیتها……………………………………………………………….. 62
جدول2-5: زیر گروههای موجودیت مشخص………………………………………………………………………….. 64
جدول2-6: زیر گروههای موجودیت سازمان……………………………………………………………………………. 65
جدول 2-7: زیر گروههای موجودیت مکان …………………………………………………………………………….. 66
جدول 2-8: زیر گروههای موجودیت سیاسی…………………………………………………………………………. 67
جدول 2-9: حالتهای خاص موجودیتهای سیاسی…………………………………………………………….. 68
جدول 2-10: انواع طبقهبندی اشاره………………………………………………………………………………………. 71
جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان……………………………………….. 100
جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشارهها……………………………………… 101
جدول 4-3: فهرست ویژگیهای به کار رفته در تشخیص مرجع مشترک………………………… 106
جدول 4-4: حالتهای ممکن نتایج یک ماشین یادگیر……………………………………………………… 108
جدول 4-5: نتایج ارزیابی الگوریتمهای پایه مورد بررسی…………………………………………………… 110
جدول 4-6: نتایج ارزیابی الگوریتم SVM با هستههای متفاوت………………………………………… 111
جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدلهای متفاوت………………………………. 112
شکل1-۱. انواع روابط ممکن میان دو عبارت اسمی ……………………………………………………………. 12
شکل1-۲. میزان ارتباط میان حوزهها با انواع دانشهای زبانشناسی و واژگانی………………….. ۱6
شکل2-۱. نمونهای از نمونههای مثبت و منفی که توسط ۴.5C تولید شده است……………… 31
شکل2-۲. درختِ بل به ازای سه عبارت اسمی ……………………………………………………………………. 37
شکل2-3. شمایی از نشانهگذاری پیکره بیژنخان………………………………………………………………….. 60
شکل2-4. شمایی از نشانهگذاری اشارههای هم مرجع در پیکره لوتوس……………………………… 62
شکل3-۱. شمایی از دادههای خطی و غیر خطی جداییپذیر………………………………………………. 77
شکل3-۲. الگوریتم پرسپترون میانگیندار……………………………………………………………………………… 80
شکل3-3. نمونهای از یک درخت تصمیمگیری……………………………………………………………………… 86
شکل3-4.الگوریتم C5 ……………………………………………………………………………………………………………. 88
شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارتهای اسمی هممرجع……………………. 92
شکل3-6. الگوریتم خوشهبندی سلسله مراتبی پایین به بالا 93
شکل3-7.الگوریتم آموزش خوشهبندی حریصانه ………………………………….. 94
شکل3-8.الگوریتم بروزرسانی ……………………………………………………….. 96
شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس…………………………………………………. 99
شکل4-2 :شمای کلی سیستم شناسایی اشاره……………………………………………………………………. 102
شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره……………………………………………….. 102
شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان…………………………………………….. 103
شکل4-5: شمایی از نمایش خروجی تعیین نمونههای مثبت و منفی………………………………. 107
شکل4-6: نمودار مقایسه الگوریتمهای پایه مورد بررسی……………………………………………………. 111
۱-۱.مقدمه و بیان مسئله
امروزه رایانه در تمام لایههای زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبانشناسی، بیش از پیش احساس میشود. «پردازش زبان طبیعی[1]»شاخهای از علم «هوش مصنوعی[2]» است كه به ماشینی كردن فرایند زبان شناسی سنتی میپردازد. به این ترتیب با بهره گرفتن از رایانه میتوان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانهها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده كند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]81[
در زمینه پردازش زبان طبیعی پژوهشهایی مانند طبقهبندی متون[3]، برچسبگذاری ادات سخن[4]، تعیین و ابهامزدایی از معانی واژگان[5] و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشتهاند و در نتیجه راه حلهایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب میشوند. تمامی این حوزههای جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.
وظایف زبان طبیعی را میتوان به ریز کاربردها[6] و کلان کاربردها[7] افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازشهایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیتهای نامدار[8] و … ) و یا در سطح کل متن (تشخیص هرزنامه[9]، رده بندی متون و…) متمرکز شده اند؛ برخی از کاربردها نیز مانند استخراج اطلاعات[10]، تشخیص مرجع مشترک[11] و ماشین ترجمه[12] در سطح بینابین قرار گرفتهاند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگیهای معنایی متون، انواع متفاوتی از ویژگیهای سطح پایینتر (مانند ویژگیهای لغوی[13] و نحوی[14]) نیز لازم است، اما به لطف سیستمهای جدید که تا حد زیادی به روشهای آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی ویژگیهای سطح پایینتر نیازی نیست. علت اینکه روشهای یادگیری ماشین توانستهاند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم میآورد که برای بسیاری از کاربردها کافی بوده و میتواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روشهای آماری محدود است و هرگز نمیتوانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستمهایی که واژگان و جملات درست را از غلط تشخیص میدهند، به طور گستردهای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوههای تجزیه کردن[15] به صحتی برابر با ۹۰%، و شناسایی موجودیتهای نامدار به صحت ۹۱% رسیده اند. [78,55,38[.
بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب میشود، که مجموعهای از تکنیکهای ردهبندی[16]، خوشهبندی[17] و قوانین وابستگی[18] است و خروجی استخراج اطلاعات شامل، شناسایی موجودیتها[19] ، تعیین نوع وگروه آنها، طبقه بندی ارتباط میان موجودیتها و همچنین استخراج رویدادهایی كه در آن مشاركت دارند، میباشد.[71[ در نهایت میتوان گفت كه خلاصه سازی، بازیابی اطلاعات[20]، دادهكاوی[21]، پرسش و پاسخ[22] و درك زبان[23] از جمله كاربردهای این سیستم هستند.
تمرکز اصلی این پژوهش بررسی فرایند تشخیص مرجع مشترک به عنوان یکی از فرایندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارتهای اسمی که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین میگردند. هدف نهایی این پایان نامه شناسایی اشارههای هم مرجع شامل ضمیر و اسم اشاره در متون پارسی میباشد. برای تحقق این هدف نیاز به انجام پیش پردازشهایی بر روی متون خام میباشد تا دادههای مورد نیاز برای ورود به فرایند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرایند کشف اشاره[24] به عنوان یک پیش پردازش میتواند در کنار سایر پیمانههای پیش پردازشی مانند تجزیهگر، شناسایی موجودیتهای نامدار و… بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]
به هر ترتیب شناسایی عبارتهای اسمی هممرجع از مهمترین زیر وظایف استخراج اطلاعات میباشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستمهای مرتبط با آن خواهد شد.
واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژولهایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل میشود. روشهای موجود در این حوزه، به دو دسته روشهای زبانشناسی[25] و روشهای یادگیری ماشین[26] تقسیم میشوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی، مراجع کاندیدا تعیین میشود و سپس با به کارگیری مجموعهای از قواعد زبانشناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی میشوند و درنهایت کاندیدایی به عنوان مرجع برگزیده میشود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبانشناسی مورد نیاز، فرایندی زمانبر، پرهزینه و پر خطاست. البته با پیدایش پیکرههای[27] زبانشناسی و موفقیت روشهای یادگیری ماشین در سایر حوزهها، روشهای زبانشناسی جای خود را به روشهای یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبانشناسی پیچیده و سطح بالای روشهای زبانشناسی نیاز نیست به طوریکه با بهره گرفتن از دانش اندکی در زمینه زبانشناسی نیز میتوان به نتایج خوب و قابل توجهی دست یافت.
از سوی دیگر، امروزه اغلب پژوهشگران فرایند تشخیص مرجع مشترک را به دو مرحله تقسیم می کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارتهای اسمی که به موجودیت[28] ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشارههایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارتهای اسمی تحت عنوان اشاره[29] و در قالب چهار گروه اصلی ضمایر[30]، اسامی خاص[31]، اسامی عام[32] و غیر اشارهها[33] قرار میگیرند،[8،910،16،48،53،72] سپس این فرایند مشخص میکند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[26]میتوان گفت که فرایند کشف اشاره، توسعه یافتهی فرایند شناسایی موجودیتهای نامدار میباشد که علاوه بر شناسایی اسامی خاص، به شناسایی اسامی عام و ضمایر نیز میپردازد. [،23،72،81،113،114]از آنجائیکه بررسی فرایندهای شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزهی این پایان نامه است، ما عبارتهای اسمی را در قالب انواع اشارههای گفته شده در پیکرهای تحت عنوان لوتوس برچسبگذاری مینمائیم و نتیجهی آن را برای تحلیل مرجع مشترک به کار خواهیم برد.
چارچوب کلی این پایان نامه به این صورت میباشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط میان دو عبارت اسمی و به خصوص ارتباطهای هممرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روشهای ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار میدهیم و در بخش دوم آن، به نحوه ایجاد پیکرهای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتمهای مناسب برای این پایان نامه را معرفی می نمائیم. سیستم پیشهنادی برای شناسایی اشارههای ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتمهای یادشده را مورد ارزیابی قرار میدهیم. در نهایت در فصل پنجم نیز به نتیجه گیری و پیشنهاد كارهای آتی در ادامهی این پژوهش خواهیم پرداخت.
[1] معادل پارسی عبارت انگلیسی Natural Language processing
[2] معادل پارسی عبارت انگلیسی Artificial Intelligence
[3] معادل پارسی عبارت انگلیسی Text classification
این مطلب را هم بخوانید :
[4] معادل پارسی عبارت انگلیسی Part of speech tagging
[5] معادل پارسی عبارت انگلیسی Word sense disambiguation
[6] معادل پارسی عبارت انگلیسی Micro-task
[7] معادل پارسی عبارت انگلیسی Macro-task
[8] معادل پارسی عبارت انگیسی Named Entity Recognizers(NER)
[9] معادل پارسی عبارت انگیسی Spam Detection
[10] معادل پارسی عبارت انگیسی Information Extraction(IE)
[11] معادل پارسی عبارت انگیسی Coreference Resolution(CR)
[12] معادل پارسی عبارت انگیسی Machin Translation(MT)