پیش‌بینی‌پذیری شاخص کل بورس اوراق بهادار تهران با رویکرد یادگیری ماشین ترکیبی: تحلیل کارایی بازار و اهمیت متغیرهای مؤثر

نوع مقاله : مقاله علمی پژوهشی

نویسندگان

1 دانشکده علوم مهندسی، پردیس فنی، دانشگاه تهران

2 دانشکده علوم مهندسی، پردیس فنی، دانشگاه تهران، ایران

3 دانشکده حسابداری، پردیس مدیریت، دانشگاه تهران

4 دانشکده مدیریت، دانشگاه میبد

10.22059/frj.2025.394747.1007738

چکیده

هدف: این پژوهش با هدف سنجش کارایی بازار سرمایه ایران و بررسی توانایی مدل‌های یادگیری ماشین ترکیبی در پیش‌بینی جهت شاخص کل بورس اوراق بهادار تهران انجام شده است. همچنین، ارزیابی میزان اهمیت عوامل مؤثر بر پیش‌بینی‌پذیری شاخص و توضیح‌پذیری در مدل‌های یادگیری ماشینی از دیگر اهداف این مطالعه است.

روش: به‌منظور تحلیل کارایی بازار در دو سطح ضعیف و نیمه‌قوی، از داده‌های مربوط به شاخص کل بورس تهران در بازه زمانی پنج‌ساله از ۱۳۹۸ تا ۱۴۰۳ استفاده شده است. مدل ترکیبی پیشنهادی شامل مدل گرادیان تقویت شده (XGBoost) است که با بهینه‌سازی هایپرپارامترها از طریق الگوریتم ژنتیک (GA) بهبود یافته است. عملکرد این مدل ترکیبی با سایر الگوریتم‌های یادگیری ماشین شامل گرادیان تقویت شده، جنگل تصادفی، ماشین بردار پشتیبان و رگرسیون لجستیک از لحاظ آماری مقایسه شده است. همچنین، برای افزایش توضیح‌پذیری مدل و تحلیل میزان اهمیت متغیرهای ورودی در پیش‌بینی جهت شاخص، از روش شاپ (SHAP) استفاده شده است.

یافته‌ها: نتایج نشان داد که مدل XGBoost-GA نسبت به سایر مدل‌های مقایسه‌ای از لحاظ آماری عملکرد بهتری با دقت 84 درصدی در پیش‌بینی جهت شاخص کل بورس تهران دارد. مقایسه نتایج در سطوح مختلف کارایی بازار نشان داد که در سطح نیمه‌قوی، افزودن متغیرهای بنیادی به مدل پیش‌بینی موجب بهبود دقت شد، که بیانگر تأثیر اطلاعات بنیادی بر پیش‌بینی جهت حرکت شاخص و در نتیجه، ناکارایی بازار در این سطح است. همچنین، در سطح ضعیف، مدل یادگیری ماشین مبتنی بر داده‌های تکنیکال، عملکرد بهتری نسبت به مدل تصادفی داشت که این امر نیز نشانه‌ای از ناکارایی بازار در این سطح محسوب می‌شود. علاوه بر این، تحلیل توضیح‌پذیری مدل با استفاده از SHAP نشان داد که تأثیر متغیرها در پیش‌بینی جهت شاخص بسته به نوع داده‌های ورودی، متفاوت است. در مدل صرفاً تکنیکال، عوامل مرتبط با رفتار قیمتی و نوسانات کوتاه‌مدت مانند شاخص قدرت نسبی (RSI)، حجم معاملات و واگرایی و همگرایی میانگین متحرک نقش کلیدی داشتند. در مقابل، در مدل ترکیبی که شامل داده‌های بنیادی و تکنیکال بود، علاوه بر متغیرهای تکنیکال، عواملی مانند ورود نقدینگی حقیقی و حقوقی، قیمت طلا و شاخص‌های مالی شرکت‌ها نظیر بازده دارایی‌ها (RoA) و بازده حقوق صاحبان سهام (RoE) تأثیر قابل‌توجهی داشتند.

نتیجه‌گیری: نتایج پژوهش نشان می‌دهد که بازار سرمایه ایران در هر دو سطح ضعیف و نیمه‌قوی ناکاراست و قابلیت پیش‌بینی‌پذیری شاخص کل با استفاده از داده‌های تکنیکال و بنیادی امکان‌پذیر است. تحلیل اهمیت متغیرهای ورودی نشان می‌دهد که برخی شاخص‌های تکنیکال، بنیادی و کلان اقتصادی نقش مهم‌تری در پیش‌بینی رفتار بازار دارند که این موضوع می‌تواند به تصمیم‌گیری‌های سرمایه‌گذاری آگاهانه‌تر و درک بهتر رفتار مدل‌های یادگیری ماشین در پیش‌بینی سری‌های زمانی مالی کمک کند. بر اساس نتایج عددی به دست آمده، استفاده از این مسیر کلی به منظور طراحی یک ابزار ساده و قابل اعتماد برای پیشنهاد معاملات خوب به کاربر توصیه می شود.





واژه‌های کلیدی: نظریه کارایی بازار، الگوریتم ژنتیک، توضیح‌پذیری یادگیری ماشین، تقویت گرادیان شدید، شاخص کل بورس تهران.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Predictability of the Tehran Stock Exchange Total Index with a Hybrid Machine Learning Approach: Analysis of Market Efficiency and the Importance of Effective Variables

نویسندگان [English]

  • Negin Bagherpour 1
  • AmirHossein Heidari Dalooei 2
  • Masoud Vahdati 3
  • Hossein Mohebbi 4
1 Department of Engineering Sciences, College of Engineering, University of Tehran
2 Department of Engineering Sciences, College of Engineering, University of Tehra, Iran
3 Department of Accounting, College of Management, University of Tehran
4 College of Management, University Of Meybod
چکیده [English]

Objective: This study aims to measure the efficiency of the Iranian capital market and investigate the ability of hybrid machine learning models to predict the direction of the Tehran Stock Exchange's total index. Also, evaluating the importance of factors affecting the index's predictability and explainability in machine learning models is another objective of this study.

Method: In order to analyze market efficiency at two weak and semi-strong levels, data related to the Tehran Stock Exchange's total index was used in the five-year period from 2019 to 2024. The proposed hybrid model includes the boosted gradient model (XGBoost), which has been improved by optimizing hyperparameters through the Genetic Algorithm (GA). The performance of this hybrid model has been statistically compared with other machine learning algorithms including boosted gradient, random forest, support vector machine, and logistic regression. Also, to increase the explainability of the model and analyze the importance of input variables in predicting the direction of the index, the SHAP method has been used.

Findings: The results showed that the XGBoost-GA model performed statistically better than other comparative models with an accuracy of 84% in predicting the direction of the Tehran Stock Exchange index. Comparing the results at different levels of market efficiency showed that at the semi-strong level, adding fundamental variables to the forecasting model improved the accuracy, which indicates the effect of fundamental information on predicting the direction of the index and, as a result, market inefficiency at this level. Also, at the weak level, the machine learning model based on technical data performed better than the random model, which is also an indication of market inefficiency at this level. In addition, the explainability analysis of the model using SHAP showed that the effect of variables on predicting the direction of the index varies depending on the type of input data. In the purely technical model, factors related to price behavior and short-term fluctuations such as the relative strength index (RSI), trading volume, and moving average divergence and convergence played a key role. In contrast, in the hybrid model that included fundamental and technical data, in addition to technical variables, factors such as real and legal liquidity inflows, gold prices, and financial indicators of companies such as return on assets (RoA) and return on equity (RoE) had a significant impact.

Conclusion: The results of the study show that the Iranian capital market is inefficient at both weak and semi-strong levels, and the predictability of the aggregate index is possible using technical and fundamental data. The analysis of the importance of input variables shows that some technical, fundamental, and macroeconomic indicators play a more important role in predicting market behavior, which can help make more informed investment decisions and better understand the behavior of machine learning models in predicting financial time series.



Keywords: Market efficiency theory, genetic algorithm, machine learning explainability, extreme gradient boosting, Tehran Stock Exchange aggregate index.

Send feedback

کلیدواژه‌ها [English]

  • Market efficiency theory
  • genetic algorithm
  • machine learning explainability
  • extreme gradient boosting
  • Tehran Stock Exchange aggregate index