چکیده:
هدف: شکاف بین زمان دریافت سیگنال خرید/ فروش و آغاز روند تغییر قیمت در بازارهای نوظهور، بستر مناسبی برای پیادهسازی سیستمهای معاملات الگوریتمی ایجاد میکند. ارائه یک سیستم معاملاتی با تکرار زیاد، مزایا (استفاده از نوسانهای درونروزی) و معایبی (هزینه زیاد معاملاتی) دارد که با طراحی درست آن و اصلاح مقررات معامله، میتوان مزایای آن را افزایش داد و معایبش را کنترل کرد.
روش: در این پژوهش، به ارائه رویکرد استفاده از خودمعاملهگرها برای پیشبینی روند آتی سهم و بهرهگیری از روش یادگیری تقویتی به منظور مدیریت پویای سبد سهام پرداخته شده و دو مدل بر همین پایه ارائه شده است. مدل نخست با بهره بردن از پیشنهاد خودمعاملهگرها، به معامله با مقدار ثابت اقدام میکند. مدل دوم که به نوعی بسط داده شده مدل نخست است، به کمک روش یادگیری تقویتی، به مدیریت پویای سبد سهام میپردازد.
یافتهها: نتایج نشان میدهد عملکرد هر دو مدل در بازارهای نزولی و نرمال، بهتر از استراتژی خرید ـ و ـ نگهداری است. همچنین بر اساس نتایج، در تمام بازارها مدل دوم در مقایسه با مدل نخست، عملکرد بهتری دارد.
نتیجهگیری: به طور کلی در بازار صعودی بهترین استراتژی، خرید ـ و ـ نگهداری دارایی است، در نتیجه نمیتوان از الگوریتمهای پیشنهادی عملکردی بهتر از این استراتژی انتظار داشت. از سویی دیگر میتوان گفت روش شبکه عصبی برای پیشبینی روند آتی سهم با رویکرد ارائه شده در این پژوهش، عملکرد بسیار مناسبی در بازارهای نزولی و نرمال داشته است. همچنین پیادهسازی روش یادگیری تقویتی به منظور مدیریت پویای سبد سهام توانسته عملکرد مدل را بسیار بهبود بخشد.
Objective: Presence of the considerable gap between the time of receiving the buy/sell signals and the beginning of the price change trend provides an appropriate situation for implementation of algorithmic trading systems. Tehran stock exchange is one of these markets. A high-frequency trading system has some advantages (exploiting intraday stock market volatility) and disadvantages (high amounts of transaction cost due to the high transaction volume), thus we can augment the advantages and control the disadvantages by designing the system elaborately and modifying the trading regulations.
Methods: In this research, the “Local Traders” approach has been utilized to predict the future trend of stock and Reinforcement Learning has been used for dynamic portfolio management. According to the “Local Traders” approach, there is a local trader (an agent) for each stock that is expert at it. It predicts the future trend of its own stock based on stock’s intraday data and their technical indicators by determining how beneficial it is to buy, sell or hold. In this research, 2 models will be proposed based on Local Traders. Based on the first one, trades with fixed lot size were sought by exploiting the local traders’ recommendations. In the second model which is an extension of first model, one can dynamically manages the portfolio using reinforcement learning and local traders’ recommendations.
Results:Results showed that, the proposed models outperformed the Buy and Hold strategy in Normal and Descending markets. Furthermore, in all kinds of markets, the second model outperformed the first one.
Conclusion: Generally, the Buy and Hold strategy works the best in an Ascending market, hence the proposed algorithms are not expected to outperform this strategy. However, the performance of the proposed approach along with Neural Network method to anticipate the future trend of stocks was considerable in Normal and Descending markets. In addition, the implementation of Reinforcement Learning model to dynamically manage the portfolio has improved the results.
خلاصه ماشینی:
روش : در این پژوهش ، به ارائه رویکرد استفاده از خودمعامله گرها برای پیش بینی رونـد آتـی سـهم و بهـره گیـری از روش یـادگیری تقویتی به منظور مدیریت پویای سبد سهام پرداخته شده و دو مدل بر همین پایه ارائـه شـده اسـت .
از سویی دیگر می توان گفت روش شبکه عصبی برای پیش بینـی رونـد آتـی سهم با رویکرد ارائه شده در این پژوهش ، عملکرد بسیار مناسبی در بازارهای نزولی و نرمال داشته است .
با توجه به آنچه گفته شد، اجرای این گونه پژوهش ها که به ارائه مدلی برای انجـام معـاملات الگـوریتمی در بـازار بورس اوراق بهادر تهران با استفاده از روش «یادگیری تقویتی » برای اخذ تصمیم های معاملاتی می پـردازد، ضـروری بـه نظر می رسد.
Local Trader اطلاعات کافی در اختیار ما قرار نمی دهند، در این پژوهش از اندیکاتورهای تحلیل تکنیکال و سیگنال های هـر یـک بـه عنوان داده ورودی استفاده می شود؛ سپس با بهره مندی از پیشنهادهای ایـن خودمعاملـه گرهـا و همچنـین وضـعیت وزن دارایی ها در سبد، مدل تکمیل تری برای مدیریت پویای سبد سهام به روش یادگیری تقویتی بـه منظـور بهبـود عملکـرد مدل نخست ارائه می شود.
شمای کلی از مدل پیشنهادی همان طور که در شکل ١ مشاهده می شود، الگـوریتم پیشـنهاد شـده ، سیسـتمی اسـت کـه چهـار بخـش اصـلی را دربرمی گیرد: عامل هـا (Agents)، حالـت (State)، یـادگیری تقـویتی (Reinforcement Learning) و مـدیریت سـبد (Portfolio Management).