چکیده:
رفع ابهام معنایی از کلمات در بافت یکی از مهمترین چالشها در حوزه پردازش زبان طبیعی و زبانشناسی رایانشی است. در این میان حروف اضافه، بهخصوص در زبان فارسی، در پژوهشهای مربوط به رفع ابهام معنایی همواره نادیده انگاشته شدهاند. ازاینرو، پژوهش حاضر قصد دارد با ارائه الگوریتمی جدید مبتنی بر قالبهای معنایی، سامانهای قاعدهمند جهت رفع ابهام معنایی از حروف اضافه «از»، «در»، «با» و «تا» در زبان فارسی ارائه دهد. روش به کار گرفتهشده در این پژوهش و الگوریتم پیشنهادی منحصربهفرد است. دادگان مورداستفاده در این پژوهش شامل 1000 جمله داده آموزشی، 100 جمله داده توسعه و 500 جمله داده تست است که از منابع اینترنتی و شبکههای اجتماعی همچون یوتیوب جمعآوری گردیده است. جهت انجام کار، تمام حروف اضافه موردنظر پژوهش برچسبدهی معنایی شده و برای آنها در پیکره آموزشی، قالبهای معنایی بر اساس زبان قالب بنیاد مینسکی (1975) تعریف شدند. همچنین برای کلمات قبل و بعد حروف اضافه در پیکره نیز قالبهایی تهیه و در فایل داده مدخلها وارد سامانه گردیدند. الگوریتم پژوهش در سه مسیر با استفاده از اطلاعات موجود در قالبها، اقدام به تعیین معنای حروف اضافه در جملات میکند. نتایج آزمایشهای داده تست، نشان دهنده دقت بالای عملکرد سامانه (16/99%) در رفع ابهام معنایی از حروف اضافه در زبان فارسی است.
Word sense disambiguation is one of the important challenges in natural language processing (NLP) and computational linguistics. However, preposition sense disambiguation especially, in Persian has been neglected. Therefore, the present study seeks to define an algorithm based on semantic frames to disambiguate the prepositions; «az», «dar», «ba» and «ta» in Persian. The algorithm and its implementation are new in this project. The data includes 1000 sentences as a training corpus, 100 sentences as a developing data and 500 sentences as a test data collected from internet sources and social networks such as YouTube. The mentioned prepositions were sense annotated. Semantic frames based on frame-based language (Minsky, 1975) were constructed for the mentioned prepositions in the training corpus and for the words before and after the prepositions included in the entries as a data file. The algorithm in three paths based on the information in the frames assigns a meaning to the prepositions in the sentences. The results indicated the high precision (99.16%) of the system in disambiguating the prepositions in Persian.
خلاصه ماشینی:
ازاین رو، پژوهش حاضر قصد دارد با ارائۀ الگوریتمی جدید مبتنی بر قالب های معنایی، سامانه ای قاعده مند جهت رفع ابهام معنایی از حروف اضافه «از»، «در»، «با» و «تا» در زبان فارسی ارائه دهد.
ازآنجاییکه در زبان فارسی تمرکز اکثر سامانه های رفع ابهام معنایی بر روی کلمات واژگانی همچون اسم بوده است ؛ لذا پژوهش حاضر قصد دارد با طراحی قالب های معنایی ٢ که عمدتا برای مفاهیم واژگانی مطرح شده اند و طرح اولیۀ آن ها به آراء مینسکی ٣ (١٩٧٥) در زمینۀ هوش مصنوعی بازمیگردد، سامانه ای جهت رفع ابهام معنایی از حروف اضافه سادٔە پیشین پرکاربرد «در»، «از»، «با» و «تا» در زبان فارسی ارائه دهد که از این نظر الگویی جدید در میان روش های مختلف رفع ابهام معنایی در پردازش زبان طبیعی به شمار میرود.
معانی مختلف حروف اضافه موردنظر نیز از فرهنگ های لغت و کتب مطرح در این زمینه همچون کتاب حرف اضافه و ربط (خطیب رهبر: ١٣٦٧)، فرهنگ فشرده سخن (انوری:١٣٨٢) و دستور زبان فارسی (انوری و گیوی: ١٣٨٩) استخراج شده اند.
سپس الگوریتم وارد مسیر ١ شده کلمه بعد از حرف اضافه «در» را شناسایی میکند؛ زیرا قالب معنایی این کلمه در فایل داده مدخل ها موجود است (شکل ٦).
ازآنجاکه تابه حال سامانه ای برای رفع ابهام معنایی با استفاده از قالب های معنایی در زبان فارسی طراحی نشده است ، روش به کار گرفته شده در این پژوهش و الگوریتم پیشنهادی منحصربه فرد است .