چکیده:
چکیدهنویسی یکی از ابزارهای عمدة تجزیه و تحلیل و سازماندهی مدارک است که به دو صورت دستی یا ماشینی انجام میشود. با پیشرفتهایی که در زمینة نرمفزاری و سختافزاری بهوقوع پیوسته و در حال تکامل است توجه و گرایش به تهیه و تولید چکیدههای خودکار گسترش پیدا کرده است. این مقاله، ضمن تقسیمبندی رویکردهای چکیدهنویسی خودکار به چکیدهنویسی تکسندی شامل رویکردهای سنتی، آماری (مبتنی بر مجموعه)، رویکردهای مبتنی بر ساختار گفتمان، و رویکردهای مبتنی بر دانش و نیز چکیدهنویسی چندمدرکی به بررسی پیشرفتهای صورتگرفته در این زمینه میپردازد. عوامل و موارد قابل ملاحظه در نظام چکیدهسازی خودکار در سه بخش جنبههای دروندادی شامل ساختار متن، حوزه، سطح تخصصی، محدودیت زبان، مقیاس، رسانه، نوع، واحد و زبان؛ جنبههای هدف شامل موقعیت، مخاطب، و کاربرد؛ جنبههای بروندادی شامل محتوا، قالب، سبک، فرایند تولید، جایگزینی، و طول نیز مورد بررسی قرار گرفته است.
خلاصه ماشینی:
"فنون یادگیری ماشینیاغلب برای این مورد استفاده قرار میگیرندکه اطلاعات مهم در مجموعهها را درک کنند.
بنابراین،یک جمله از چکیدۀ دستیمیتوانست«تطبیق مستقیم»با جملۀ دیگر درمنبع باشد،«اتصال مستقیم»-به معنی دوجملهای که از منبع برای تولید یک جملهدر خلاصۀ دستی استفاده شده بود-و یا«غیر قابل تطبیق»باشد(24:55-70).
از این مجموعهها پایگاهاطلاعاتی شامل نامها و عبارات چند جملهایشامل نامها و عبارات تولید شد و از آنجا کهواژهها از سرتاسر متن استخراج شده بودند،پایگاه،رکوردهای متفاوتی برای واژهها ونامهای مشابه داشت.
این سیستم چکیدهنویسی مبتنیبر ساختار گفتمان بود و مجموعهای از عباراتو جملههای مهم از متن اصلی را تولید میکرد.
مارکو یک خلاصهساز مبتنی بر گفتمان ارائهکرد که درختهای ساختار بلاغی را دریافتمیکرد و آنها را برای تشکیل خلاصۀ نهایییک سند مورد استفاده قرار میداد.
چالشهایی که در این حوزه وجود دارد ودر روشهای تک سندی قبلی وجود نداشتشامل موارد زیر هستند: *بخش زائد جمله-حذف بخش زائدجمله هنگام پردازش تعداد زیادی از اسناد باموضوع مشابه خیلی مهم است.
اگر این اطلاعات به خوبی مرتب شده وبهرهبرداری شود میتواند برای تجزیه وتحلیل سند مورد استفاده قرار گیرد.
از آنجا که در تهیۀ چکیده باید بربخشهای مهم و خاصی از مدرک تأکید شود،در نتیجه،باید برای طبقه یا فهرستی از کلماتخاص،وزن نیز تعیین کرد تا اطمینان حاصلشود که جملات انتخابی برای چکیدهنویسییک یا چند مورد از این کلمات را دربر دارند.
In workshop on text summarization in conjunction with the ACM SIGIR conference.
T. "Centroid-based-summarization of multiple documents:information processing and management".
In Workshop on text summarization in conjunction with the ACM SIGIR Conferenve,New Orleans,Louisiana,2001."