چکیده:
هدف: طبقهبندی ریسک بیمهگذاران بر مبنای ویژگیهای قابل مشاهده میتواند به شرکتهای بیمه جهت کاهش زیان، شناخت دقیقتر مشتریان و جلوگیری از وقوع انتخاب نامساعد در بازار بیمه کمک شایانی کند. هدف این مقاله، بررسی خسارتهای مالی ایجاد شده در بیمه شخص ثالث و پیشبینی ریسک بیمهگذاران در احتمال وقوع حادثه میباشد.
روششناسی: با استفاده از الگوریتمهای درخت تصمیم، ماشین بردار پشتیبان، نایو بیز و شبکه عصبی؛ به کشف الگوهای پنهان دادهها، در راستای طبقهبندی بیمهگذاران بیمه شخص ثالث پرداخته شده است. همچنین توزیع نامتعادل دادهها در دو گروه خسارتدیده و خسارتندیده سبب یک چالش مهم در کاربرد روشهای یادگیری ماشین و دادهکاوی است که در این مقاله مورد توجه قرار گرفته است.
یافتهها: مجموعه داده متعلق به یکی از شرکتهای بیمه و حاوی بیش از چهارصد هزار نمونه ثبت شده در پنج سال و شامل چهار متغیر مستقل نوع خودرو، گروه خودرو، نوع پلاک و سن خودرو و یک متغیر وابسته و دو ارزشی خسارت مالی است. با توجه به نتایج بدست آمده بهترین کارکرد و دقت پیشبینی (با دقت F1=) مربوط به مدل درخت تصمیم میباشد.
نتیجهگیری: میزان تاثیرگذاری متغیرها در وقوع خسارت به ترتیب اولویت عبارتنداز: نوع خودرو، نوع پلاک، سن خودرو و گروه خودرو. نتایج ارزیابی نشان میدهد برای پیشبینی دقیقتر خسارت و مشتریان پر ریسک به دادههای بیشتری مرتبط با ویژگیهای راننده نیاز میباشد.
طبقهبندی موضوعی:G22, G17, F47
Objective: Risk classification of insurance customers, based on the observable characteristics, can significantly help insurers mitigate losses, classify their customers and prevent adverse selection. This paper aims to study losses occurred in motor Third Party Liability (TPL) insurance and predict customers’ risk of loss. Methodology: With the help of four supervised algorithms namely; decision tree, SVM, naive Bayes and neural network hidden pattern of data is discovered to classify customers of TPL insurance. Furthermore, the imbalanced dataset was the main challenge for implementing machine learning and data mining techniques which will be discussed throughout the article. Findings: The dataset contains more than 400,000 observations for five years from an Iranian insurance company. It also has five variables of which four are independent: car type, car group, plate type, car age; and one binary dependent variable: financial loss. Comparing the model performances, decision tree is the most efficient (F1=0.72±1). Conclusions: The model provides prioritization of independent features as follows: car type, plate type, car age, car group. Findings also suggest that to obtain more accurate prediction on claims and high-risk customers, more features concerning drivers’ traits are required. JEL-Classification: G22, G17, F47
خلاصه ماشینی:
کاربرد داده کاوی با استفاده از الگوریتم های یادگیری ماشین برای بررسی تاثیر ویژگیهای خودرو در پیش بینی ریسک خسارت مالی در رشته بیمه شخص ثالث 3 محمدرضا اصغری اسکوئی ١ فربد خانیزاده ٢ آزاده بهادر تاریخ دریافت : ١٣٩٩/٠٢/٠٣ تاریخ پذیرش: ١٣٩٩/٠٧/١٢ چکیده هدف: طبقه بندی ریسک بیمه گذاران بر مبنای ویژگیهای قابل مشاهده میتواند به شرکت های بیمه جهت کاهش زیان، شناخت دقیق تر مشتریان و جلوگیری از وقوع انتخاب نامساعد در بازار بیمه کمک شایانی کند.
در این مقاله از روشهای درخت تصمیم ١، ماشین بردار پشتیبان ٢، نایو بیز (بیز ساده)٣ و همچنین شبکه عصبی ٤، برای تحلیل دادههای بیمه شخص ثالث و طبقه بندی نمونه های خسارت دیده و خسارت نادیده استفاده نمودیم و دقت مدلها در این چهار روش را مقایسه کردیم .
پژوهش کریم زادگان مقدم و بهروان (١٣٩٤)، در خصوص تعرفه گذاری پویا در رشته بیمه شخص ثالث میباشد که در این مقاله از شبکه های عصبی، درخت تصمیم و خوشه بندی استفاده شده است که نتایج به دست آمده از مدلها با استفاده از ماتریس آشفتگی ٣ و نسبت خسارت، مورد اعتبارسنجی قرار گرفته که نتایج حاکی از امکان 1.
مراحل اجرایی در این تحقیق به صورت زیر میباشد: - جمع آوری دادهها از پایگاه داده بیمه گذاران بیمه شخص ثالث یکی از شرکت های بیمه ؛ - پیش پردازش ١ و پالایش ٢ دادهها و تعیین شاخص هایی برای تعریف طبقات ریسک بیمه گذاران؛ - بررسی آماری و تقسیم دادهها به زیر مجموعه های متعادل و تصادفی در دو دسته دادههای آزمایشی و دادههای آموزشی؛ - استخراج الگوها با استفاده از الگوریتم های درخت تصمیم ، ماشین بردار پشتیبان، نایو بیز و شبکه عصبی و مقایسه نتایج حاصله از این الگوریتم ها؛ - ارائه الگوی کشف شده از طبقه بندی بیمه گذاران و شناسائی ویژگیهای تعیین کننده؛ - ارزیابی نتایج طبقه بندی و اعتبارسنجی مدل.