چکیده:
شناسایی روابط علّی و همچنین تعیین مرز عناصر علّی در متن، از جمله مسائل چالش برانگیز در پردازش زبان طبیعی (NLP) به ویژه در زبانهای کممنبع مانند فارسی است. در این پژوهش، در راستای آموزش سیستمی برای شناسایی روابط علّی و مرز عناصر آن، یک پیکره علّیت برچسب خورده انسانی برای زبان فارسی معرفی میشود. این مجموعه شامل 4446 جمله (مستخرج از پیکره بیجن خان و متن یکسری کتاب) و 5128 رابطه علّی است و در صورت وجود، سه برچسب علت، معلول و نشانه علّی برای هر رابطه مشخص شده است. ما از این پیکره برای آموزش سیستمی برای تشخیص مرزهای عناصر علّی استفاده کردیم. همچنین، یک بستر آزمون شناسایی علّیت را با سه روش یادگیری ماشین و دو سیستم یادگیری عمیق مبتنی بر این پیکره ارائه میکنیم. ارزیابیهای عملکرد نشان میدهد که بهترین نتیجه کلی از طریق طبقهبندی کننده CRF به دست میآید که معیار F برابر 76% را ارائه میکند. علاوه بر این، بهترین صحت (91.4٪) در روش یادگیری عمیق BiLSTM-CRF به دست آمده است. به نظر میرسد وجود CRF به دلیل مدلسازی بافتار منجر به بهبود دقت سیستم میشود.
Recognizing causal elements and causal relations in the text is among the challenging issues in natural language processing (NLP), specifically in low-resource languages such as Persian. In this research, we prepare a causality human-annotated corpus for the Persian language. This corpus consists of 4446 sentences and 5128 causal relations. Three labels of Cause, Effect, and Causal mark are specified to each relation, if possible. We used this corpus to train a system for detecting causal elements’ boundaries.
Also, we present a causality detection benchmark for three machine-learning methods and two deep learning systems based on this corpus. Performance evaluations indicate that our best total result is obtained through the CRF classifier, which provides an F-measure of 0.76. In addition, the best accuracy (91.4%) is obtained through the BiLSTM-CRF deep learning method