تحلیل حساسیت مدل‌های یادگیری ماشین در پیش‌بینی شاخص‌ بورس تهران: تأثیر پارامترهای ورودی بر کارایی

نوع مقاله : مقاله علمی پژوهشی

نویسندگان

1 دانشجوی دکترا رشته اقتصاد مالی، دانشکده اقتصاد و مدیریت، دانشگاه ارومیه، ارومیه، ایران.

2 دانشیار گروه اقتصاد، دانشکده اقتصاد و مدیریت، دانشگاه ارومیه، ارومیه، ایران.

3 دانشیار گروه اقتصاد، دانشکده اقتصاد و مدیریت، دانشگاه ارومیه، ارومیه، ایران

10.22059/frj.2025.387933.1007689

چکیده

هدف: این پژوهش به ارزیابی حساسیت مدل‌های یادگیری ماشین نسبت به متغیرهای ورودی و شناسایی مهم‌ترین متغیرهای تأثیرگذار در پیش‌بینی شاخص بورس تهران پرداخته‌است. همچنین، مقایسه کارایی مدل‌ها در پیش‌بینی شاخص بورس با تمرکز بر تأثیر پارامترهای ورودی و ارائه راهکارهایی برای بهینه‌سازی داده‌های ورودی و کاهش پیچیدگی مدل‌ها از دیگر اهداف این تحقیق است. متغیرهای ورودی شامل قیمت‌های باز، بالا، پایین و حجم معاملات هستند.

روش: در پژوهش حاضر به دلیل وجود یک متغیر هدف و ناظر که همان متغیر قیمت پایانی (Close) است درمی‌یابیم باید از رویکرد یادگیری نظارت شده استفاده شود و از سوی دیگر به دلیل کمی یا پیوسته بودن مقیاس متغیر هدف؛ مسئله به فرم رگرسیون تعریف شده و در نهایت پیش‌بینی‌های حاصل از چهار الگوریتم قدرتمند یادگیری ماشین (مدل خطی (LM)، رگرسیون بردار پشتیبان (SVR)، شبکه عصبی مصنوعی (ANN) و جنگل تصادفی (RF)) با استفاده از توابع میانگین خطای مطلق (MAE)، میانگین مربعات خطا (MSE) و ضریب تعیین R2 با یکدیگر مقایسه شده و مدل نهایی به جهت بهترین مدل پیش‌بینی ارائه شده است. معیار MAE به نوعی نشان دهنده متوسط اندازه خطاها و معیار MSE بیانگر اختلاف بین مقادیر پیش‌بینی شده و واقعی است ، بنابراین هرچه مقدار این دو معیار کمتر باشد بیانگر دقت بیشتر پیش‌بینی‌ها است. ضریب تعیین R2 نشان‎دهنده درصدی از واریانس داده‎‌ها است که توسط مدل توضیح داده می‌شود. مقدار نزدیک به یک نشان‌دهنده دقت بالااست. داده‌های مورد استفاده شامل شش شاخص منتخب از صنایع دارویی، خودرویی، مالی، صنایع غذایی، فلزات اساسی و فرآورده‌های نفتی طی سال‌های ۱۳۹۹ تا ۱۴۰۳ به‌صورت روزانه می‌باشد. برای تحلیل حساسیت، اهمیت متغیرهای ورودی مانند قیمت‌های باز، بالا، پایین، و حجم معاملات بر پیش‌بینی خروجی هر مدل بررسی شد.

یافته‌ها: نتایج تحلیل حساسیت نشان داد که رگرسیون بردار پشتیبان (SVR) نسبت به پارامترهای ورودی حساسیت کمتری دارد. این موضوع می‌تواند ناشی از استفاده از کرنل‌های غیرخطی در این مدل باشد که روابط پیچیده بین متغیرها را در فضای ویژگی‌های جدید مدل‌سازی می‌کند و تأثیر مستقیم متغیرهای ورودی را کاهش می‌دهد. در مقابل، مدل‌های دیگر شامل جنگل تصادفی، شبکه عصبی مصنوعی (ANN) و رگرسیون خطی حساسیت نسبتاً مشابه‌ی نسبت به متغیرهای ورودی نشان دادند. این مدل‌ها وابستگی مستقیم‌تری به پارامترهای ورودی دارند و اهمیت نسبی متغیرها در پیش‌بینی خروجی را بهتر نمایان می‌کنند.

نتیجه‌گیری: این پژوهش به شناسایی مهم‌ترین متغیرهای تأثیرگذار بر تغییرات شاخص بورس کمک کرده و نشان می‌دهد که مدل‌های پیچیده‌تر مانند جنگل تصادفی و شبکه عصبی به دلیل حساسیت بیشتر، می‌توانند در پیش‌بینی دقیق‌تر شاخص‌های بورس مؤثرتر عمل کنند. این نتایج می‌تواند به بهبود طراحی مدل‌های پیش‌بینی و تصمیم‌گیری در بازار سرمایه کمک کند. تحلیل حساسیت به شناسایی متغیرهای مهم و حذف ویژگی‌های غیرضروری کمک می‌کند، که منجر به افزایش سرعت و کاهش پیچیدگی مدل‌ها می‌شود. نتایج این تحقیق می‌تواند برای سرمایه‌گذاران و سیاست‌گذاران اقتصادی به‌منظور اتخاذ تصمیمات آگاهانه‌تر مفید باشد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Sensitivity Analysis of Machine Learning Models in Predicting the Tehran Stock Exchange Index: The Impact of Input Parameters on Performance

نویسندگان [English]

  • Fatemeh Ansari 1
  • Shahab Jahangiri 2
  • ,Ali Rezazadeh 3
1 Ph.D. Candidate in the field of financial economics, Faculty of Economics and Management, Urmia University, Urmia, Iran.
2 Associate Prof., Department of Economics, Faculty of Economics and Management, Urmia University, Urmia, Iran.
3 Associate Prof., Department of Economics, Faculty of Economics and Management, Urmia University, Urmia, Iran.
چکیده [English]

Objective: This study aims to evaluate the sensitivity of machine learning models to input variables and identify the most significant factors influencing the prediction of the Tehran Stock Exchange index. Additionally, it compares the performance of different models in forecasting the stock index, focusing on the impact of input parameters, and offers strategies for optimizing input data and reducing model complexity. The key input variables considered include open, high, low prices, and trading volume.

Method: In this research, due to the presence of a target variable (closing price), a supervised learning approach is employed. Furthermore, because the target variable is continuous, the problem is defined as a regression task. Predictions from four powerful machine learning algorithms—Linear Model (LM), Support Vector Regression (SVR), Artificial Neural Network (ANN), and Random Forest (RF)—were compared using performance evaluation metrics such as Mean Absolute Error (MAE), Mean Squared Error (MSE), and the coefficient of determination (R²). MAE represents the average magnitude of errors, while MSE indicates the differences between the predicted and actual values. Lower values for both metrics suggest greater accuracy of predictions. The R² statistic represents the percentage of variance in the data that is explained by the model, with values close to one indicating a higher level of accuracy. The dataset used in this study consists of six selected indices from various sectors, including pharmaceutical, automotive, financial, food industries, basic metals, and petroleum products, covering the period from 2020 to 2024 on a daily basis. Sensitivity analysis was conducted to evaluate the importance of input variables such as open, high, low prices, and trading volume on the predictions of each model.

Findings: The sensitivity analysis revealed that Support Vector Regression (SVR) exhibits lower sensitivity to input parameters. This can be attributed to the use of nonlinear kernels in the SVR model, which allow it to model complex relationships between the variables in a transformed feature space, thus reducing the direct impact of input parameters. In contrast, models such as Random Forest, Artificial Neural Networks (ANN), and Linear Regression demonstrated relatively higher sensitivity to input variables. These models are more directly dependent on the input data and provide a better representation of the relative importance of the variables in predicting the output. ANN, in particular, showed superior performance in forecasting stock indices due to its ability to capture complex, nonlinear relationships effectively.

Conclusion: This study contributes to identifying the most influential variables in stock index fluctuations and demonstrates that more complex models, such as Random Forest and ANN, can be more effective in providing accurate predictions due to their higher sensitivity to input data. These findings also highlight the value of sensitivity analysis in identifying significant variables and eliminating unnecessary features, which helps improve the speed and reduce the complexity of models. Ultimately, the results can assist investors and policymakers in making more informed decisions and refining prediction models for better capital market strategies.

کلیدواژه‌ها [English]

  • '
  • Random Forest'
  • Sensitivity analysis'
  • , '
  • Support vector regression'