رده بندی متون فارسی با استفاده از روش های آماری مقاله

نویسنده: الهی منش، محمدحسین ؛ مینایی، بهروز ؛

ره آورد نور بهار 1390، سال دهم - شماره 34 (‎6 صفحه - از 90 تا 95 )

چکیده:

در این گزارش، سعی شده است تا یکی از تکنیک‌های موفق در زمینه رده‌بندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از رده‌بندی متون، می‌توان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش رده‌بندی K نزدیک‌ترین همسایه(1) و دو معیار فاصله متون، آزمایش‌های خودمان را انجام داده‌ایم. یکی از این دو معیار، الگو گرفته از نوعی رده‌بندی متون زبان عربی[4]‌ بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایش‌ها بر روی پیکره همشهری[1] است. این دو نوع فاصله‌سنجی، هر کدام با الگوریتم نزدیک‌ترین همسایه ترکیب شده و رده‌بند 1 تا 20 نزدیک‌ترین همسایه را برای آزمایش‌های ما آماده کرده‌اند. نتایج ما نشان می‌دهد که این روش می‌تواند با دقت(2) 89% عمل رده‌بندی را انجام دهد.

خلاصه ماشینی:

ir  اندازه قلم / /  چاپ  پست الکترونیکی چکیده در این گزارش، سعی شده است تا یکی از تکنیک‌های موفق در زمینه رده‌بندی متون را برای متون فارسی به کار بندیم. یکی از این دو معیار، الگو گرفته از نوعی رده‌بندی متون زبان عربی[4]‌ بوده و دیگری، معیار ترکیبی تولید شده خودمان است. بخش 3 روش ارائه شده ما برای انجام این کار را نشان می‌دهد. آزمایش‌های انجام شده توسط ایشان 97% را در بهترین حالت برای رده‌بندی سه کلاسی متون فارسی نشان می‌دهد. 3. رده‌بندی متن در این پروژه در این پروژه برای نمایش متون از چند گرم‌های (N-gram) آماری استفاده کرده‌ایم. حال اگر این سه‌گرم‌ها را بر حسب تعداد تکرارشان منظم کرده و عناصر تکراری را حذف کنیم، به خروجی حاصل، یک پروفایل گفته می‌شود؛ برای مثال، پروفایل حاصل از عبارت «باران می‌بارد»، به صورت جدول ۱ نمایش داده ‌شده است: (رجوع شود به تصویر صفحه) جدول ۱: پروفایل محاسبه شده برای عبارت «باران می‌بارد» * دو معیار فاصله سنجی در این پروژه: معیار اول، معیار Dice است که هر چه بیشتر باشد، نشان می‌دهد که دو متن بیشتر به هم شباهت دارند. (رجوع شود به تصویر صفحه) رابطه2: معیار فاصله Dice برای مقایسه فاصله پروفایل دو متن در این رابطه، قدر مطلق، نشانه تعداد عناصر در آن پروفایل است. نتایج این موتور دسته‌بندی کننده، بر‌ اساس معیارهای دقت(7) و بازخوانی(8) و معیار F که در مقالهBaeza-Yates وRibeiro-Neto([3,4]) برای هر دسته به صورت زیر تعریف شده، در جدول ۳ محاسبه کرده‌ایم.

دریافت فایل ارجاع :
(پژوهیار, , , )

دانلود HTML
دانلود PDF

ورود / عضویت

برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.

ورود

عضویت

تحتاج دخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.
إن كنت لا تقدر علی شراء الاشتراك عبرPayPal أو بطاقة VISA، الرجاء ارسال رقم هاتفك المحمول إلی مدير الموقع عبر webmaster@noormags.com .

You need Sign in to view the content of the article. If you are not a member, proceed from part Sign up.
If you fail to purchase subscription via PayPal or VISA Card, please send your mobile number to the Website Administrator via webmaster@noormags.com .

لینک کوتاه:

1402

1401

1400

1399

1398

1397

1396

1395

1394

1393

1392

1391

1390

1389

1388

1387

1386

1385

1384

1383

1382

1381

1379

1378

رده بندی متون فارسی با استفاده از روش های آماری مقاله