چکیده:
روشهای خوشهبندی و بهرهوری آنها در عملیات دادهکاوی توسعه زیادی یافتهاند. نیاز مدیران به دادههای دستهبندیشده و بهرهوری روشهای خوشهبندی در امر مدیریت و تصمیمگیری، به گسترش روشهای دادهکاوی ضرورت بخشیده است. الگوریتم بهینهسازی نهنگ روش عمومی است که در حل مسائل متعددی کاربرد دارد. در این الگوریتم جوابهای آغازین بهصورت تصادفی انتخاب میشوند. الگوریتم کی-میانگین یک روش خوشهبندی پرکاربرد است که به دلیل سادگی و کوتاه بودن مراحل، بسیار موردتوجه محققان قرار میگیرد. در این مقاله این مزیت الگوریتم کی- میانگین را برای افزایش توانایی الگوریتم بهینهسازی نهنگ در خوشهبندی دادهها بهکاررفته است. الگوریتم پیشنهادی ترکیبی از الگوریتمهای کی-میانگین و خوشهبندی نهنگ است. در این پژوهش الگوریتم جدید و چند الگوریتم خوشهبندی دیگر را بر روی مجموعه دادههای واقعی و شناخته شده اجرا شده است. نتایج عددی نشان میدهد که الگوریتم جدید ازنظر کیفیت جوابها و انحراف استاندارد مقادیر جوابهای نهایی، نتایج مطلوبی نشان میدهد.
Methods of clustering in data mining have dramatically developed in recent years as a result of the crucial need to categorize data leading to the expansion of data mining techniques and enhanced productivity of clustering methods in management and decision making. Whale optimization algorithm is a new stochastic global optimization method employed to resolve various problems. We already presented a data clustering method based on Whale optimization algorithm in which the initial solutions are randomly selected. What has made K-mean algorithm a highly popular clustering approaches appealing to many researchers is the simplicity and brevity of the stages involved in the process. The present enquiry aimed at employing K-mean algorithm to improve the capability of Whale optimization clustering and proposing the hybrid KWOA algorithm which can find more accurate clusters. The computational results of running the newly proposed algorithm, along with some well-known clustering algorithms, on real data sets from a well-known machine learning repository underscored the promising performance of the proposed algorithm in terms of the quality and standard deviation of the final solutions.
خلاصه ماشینی:
در اين پژوهش الگوريتم جديد و چند الگوريتم خوشه بندي ديگر را بر روي مجموعه داده هاي واقعي و شناخته شده اجرا شده است .
براي اجراي اين الگوريتم ابتدا k عنصر از مجموعه داده )322( به صورت تصادفي به عنوان مرکز خوشه هاي اوليه انتخاب مي شود.
جواب بهينه حاصل از اين اجرا به عنوان يکي از عامل هاي جستجوي الگوريتم خوشه بندي نهنگ در نظر گرفته مي شود و بقيه جميعت آغازين به صورت تصادفي انتخاب مي شوند.
در مجموعه داده win نيز که يک مجموعه داده ١٣ بعدي است روش ترکيبي جديد در رتبه اول قرار دارد و همچنين مقدار انحراف معيار استاندارد جواب ها ١١/٩٣ به دست آمده که در مقايسه با مقدار مشابه در الگوريتم )322( نهنگ که برابر با ٤٧/٤٥ محاسبه شده است ، مقدار کمتري دارد و بهبود عملکرد الگوريتم هوش جمعي نهنگ را در ترکيب با روش کي-ميانگين تأييد ميکند و توانايي بالاي الگوريتم جديد را در کار با داده هاي با بعد بالا نشان ميدهد.
)322( جدول شماره ٣: نتايج عددي الگوريتم خوشه بندي ترکيبي نهنگ و مقايسه با ساير الگوريتم ها (به تصویر صفحه رجوع شود)در شکل ٢ و ٣، کمترين مقدار تابع فاصله درون خوشه براي الگوريتم پيشنهادي و الگوريتم خوشه بندي نهنگ در ٢٠ شبيه سازي با جواب هاي اوليه تصادفي روي مجموعه داده Glass و Cancer نمايش داده شده است .
Clustering analysis with combination of artificial bee colony algorithm and k-means technique.
International Journal of Computer Theory and Engineering, (6)2, 141-145.