چکیده:
عوامل متعددی از مجموعه عناصر تشکیلدهنده سامانههای پیشنهاددهنده در تولید و ارائه پیشنهاد دخیل هستند. مطالعه حاضر، با هدف شناخت تاثیر دو چالش کمبود و پراکندگی داده بر اثربخشی نتایج پیشنهادی سامانه ژورنالیاب رایسست انجام شده است. بدینمنظور بیش از ۱۵۰۰۰ مقاله از نشریههای فنی و مهندسی در بازه زمانی ۱۳۹۲ تا ۱۳۹۶ از وبسایت نشریهها گرداوری شد. در مرحله بعد عناصر متنی این مقالهها شامل عنوان، چکیده و واژههای کلیدی استخراج، نرمال‏سازی و پردازش شد و پایگاه داده پیکره پژوهش ایجاد گردید. بر اساس تعداد مقالههای گردآوری شده، با استفاده از فرمول کوکران تعداد ۴۰۰ مقاله پایه که پیش از این در نشریههای مرتبط با موضوع منتشر شده بودند، به روش تصادفی- تناسبی، انتخاب شد. عنوان و چکیده این مقالهها، به منظور دریافت نشریههای پیشنهادی سامانه، جهت چاپ مقاله در دو مرحله پیش و پس از بهبود دو چالش کمبود و پراکندگی داده به عنوان پرسمان وارد سامانه شد. سپس نتایج پیشنهادی در هر مرحله در قالب فایل اکسل ذخیره گردید. در نهایت میزان اثربخشی نتایج سامانه در هر مرحله، به روش اعتبارسنجی یک طرفه و بر اساس معیار دقت در k تعیین شد. فراوانی نسبی ردهها نشان داد در وضعیت موجود، نشریه هدف تنها در ۲۶ درصد از پرسمانها در ۳ رتبه نخست پیشنهاد شده است. در راستای بهبود چالش کمبود داده با غنیسازی، نرمالسازی و پردازش دادهها اثربخشی نتایج در ۳ رتبه نخست به میزان ۱۵ درصد افزایش یافت. اما همچنان در بیش از ۳۰ درصد پرسمانها، نشریه هدف در رتبه ۱۰ و بالاتر پیشنهاد شده بود. بنابراین در مرحله بعد به منظور بهبود چالش پراکندگی، دستهبندی موضوعی دادهها انجام و افزایش ۳۰ درصدی اثربخشی نتایج نسبت به مرحله پیشین در ۳ رتبه نخست حاصل گردید. بر این اساس یکی از عواملی که منجر به کاهش اثربخشی نتایج پیشنهادی سامانه ژورنالیاب رایسست میگردد، کمبود و پراکندگی دادهها است؛ که با غنیسازی پایگاه داده، بهبود فرآیند پردازش و دستهبندی موضوعی دادهها میتوان به میزان قابل توجهی با این دو چالش مقابله و اثربخشی نتایج پیشنهادی سامانه را بهبود بخشید.
Several factors are involved in the production and presentation of recommender systems.The aim of this study was to investigate the effect of the two challenges lack and sparsity of data on the effectiveness of the proposed results of the RICeST Journal Finder. The corpus includes more than 15,000 articles from technical and engineering publications in the period 2013 to 2017, which have been collected from their website. Textual elements of these articles were extracted, normalized and processed, and a research body database was created. Based on the number of collected articles, by using Cochran's formula, 400 basic articles that previously published in related to the topic of each journal were selected in a random-proportional method. Title and abstract of these articles as a query, in order to receive the system Journals suggested, to print the article in two stages of before and after improving the two challenges of lack and sparsity of data in the test corpus. The suggested results in each step were saved in Excel. Finally, the effectiveness of the system results in each stage was determined by Leave-one-out Cross-Validation method and based on the accuracy criterion in k.The relative abundance of categories showed that, in the current situation, the target journal was suggested in only 26% of searches in the first 3 ranks. After enriching, normalizing and processing the data and thus improving the lack of data challenge, although 30% of the results were still rated above 10; But the accuracy of the results in the first 3 ranks increased by 15%. Also, after thematically categorizing the data with the aim of improving the sparsity challenge, 30% increase in the accuracy of the system results in the first 3 ranks compared to the previous step was achieved. The results of this study showed that enriching the database, improving the processing process and thematic classification of data in RICeST journal finder can reduce the two challengs lack and sparsity of data and increase the effectiveness of the proposed results of this systems.