چکیده:
در این گزارش، سعی شده است تا یکی از تکنیکهای موفق در زمینه ردهبندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از ردهبندی متون، میتوان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش ردهبندی K نزدیکترین همسایه(1) و دو معیار فاصله متون، آزمایشهای خودمان را انجام دادهایم. یکی از این دو معیار، الگو گرفته از نوعی ردهبندی متون زبان عربی[4] بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایشها بر روی پیکره همشهری[1] است. این دو نوع فاصلهسنجی، هر کدام با الگوریتم نزدیکترین همسایه ترکیب شده و ردهبند 1 تا 20 نزدیکترین همسایه را برای آزمایشهای ما آماده کردهاند. نتایج ما نشان میدهد که این روش میتواند با دقت(2) 89% عمل ردهبندی را انجام دهد.
خلاصه ماشینی:
ir اندازه قلم / / چاپ پست الکترونیکی چکیده در این گزارش، سعی شده است تا یکی از تکنیکهای موفق در زمینه ردهبندی متون را برای متون فارسی به کار بندیم.
یکی از این دو معیار، الگو گرفته از نوعی ردهبندی متون زبان عربی[4] بوده و دیگری، معیار ترکیبی تولید شده خودمان است.
بخش 3 روش ارائه شده ما برای انجام این کار را نشان میدهد.
آزمایشهای انجام شده توسط ایشان 97% را در بهترین حالت برای ردهبندی سه کلاسی متون فارسی نشان میدهد.
3. ردهبندی متن در این پروژه در این پروژه برای نمایش متون از چند گرمهای (N-gram) آماری استفاده کردهایم.
حال اگر این سهگرمها را بر حسب تعداد تکرارشان منظم کرده و عناصر تکراری را حذف کنیم، به خروجی حاصل، یک پروفایل گفته میشود؛ برای مثال، پروفایل حاصل از عبارت «باران میبارد»، به صورت جدول ۱ نمایش داده شده است: (رجوع شود به تصویر صفحه) جدول ۱: پروفایل محاسبه شده برای عبارت «باران میبارد» * دو معیار فاصله سنجی در این پروژه: معیار اول، معیار Dice است که هر چه بیشتر باشد، نشان میدهد که دو متن بیشتر به هم شباهت دارند.
(رجوع شود به تصویر صفحه) رابطه2: معیار فاصله Dice برای مقایسه فاصله پروفایل دو متن در این رابطه، قدر مطلق، نشانه تعداد عناصر در آن پروفایل است.
نتایج این موتور دستهبندی کننده، بر اساس معیارهای دقت(7) و بازخوانی(8) و معیار F که در مقالهBaeza-Yates وRibeiro-Neto([3,4]) برای هر دسته به صورت زیر تعریف شده، در جدول ۳ محاسبه کردهایم.