پیش‌بینی آلفای صندوق‌های سرمایه‌گذاری در سهام با استفاده از الگوریتم‌های یادگیری ماشین نظارت شده

نوع مقاله : مقاله علمی پژوهشی

نویسندگان

1 گروه بازارها و نهادهای مالی، دانشکده حسابداری و علوم مالی، دانشکدگان مدیریت، دانشگاه تهران، تهران، ایران

2 گروه مهندسی مالی، دانشکده حسابداری و علوم مالی، دانشکدگان مدیریت، دانشگاه تهران، تهران، ایران.

10.22059/frj.2026.407299.1007827

چکیده

هدف: این پژوهش با هدف پیش‌بینی عملکرد صندوق‌های سرمایه‌گذاری در سهام با بهره‌گیری از الگوریتم‌های مبتنی‌بر یادگیری ماشین نظارت‌شده انجام شده است. همچنین پژوهش حاضر به‌دنبال شناسایی عوامل کلیدی مؤثر بر عملکرد صندوق‌های سرمایه‌گذاری و ارائه راهکاری مبتنی‌بر روش‌های پیشرفته پیش‌بینی است که به سرمایه‌گذاران امکان می‌دهد صندوق‌های سرمایه‌گذاری با توانایی خلق آلفای مثبت را شناسایی کنند. بدین‌ترتیب تصمیمات سرمایه‌گذاران در زمینه تخصیص منابع مالی، هوشمندانه‌تر شده و بازدهی بالاتری در مقایسه با صندوق‌های منفعل یا ناکارآمد حاصل خواهد شد. این امر نه‌تنها به نفع سرمایه‌گذاران است، بلکه به بهبود کارایی کل بازارهای مالی و تخصیص بهینه منابع نیز کمک شایانی خواهد کرد.

روش: پژوهش حاضر از نوع توسعه‌ای و کاربردی است. درحالی‌که در اکثر تحقیقات مبنای شاخص عملکرد صندوق‌های سرمایه‌گذاری، بازده صندوق بوده ‌است؛ در این پژوهش برای اولین‌بار در تحقیقات داخلی به پیش‌بینی آلفای صندوق‌ها پرداخته می‌شود. بدین‌منظور داده‌های 23 متغیر برای 12 صندوق سرمایه‌گذاری سهامی فعال در بازار سرمایه ایران در بازه زمانی از تاریخ ثبت داده‌های خام مربوط به هر صندوق تا اسفند ماه 1403 از پایگاه‌های فیپیران، کدال و تارنمای هر صندوق جمع‌آوری و پاکسازی شدند. الگوریتم‌های یادگیری ماشین نظارت‌شده خطی (شامل رگرسیون خطی و شبکه الاستیک) و مبتنی‌بر درخت (شامل جنگل تصادفی و تقویت گرادیان) با استفاده از زبان برنامه‌نویسی پایتون پیاده‌سازی شدند. جهت دستیابی به بالاترین دقت و جلوگیری از بیش‌برازش، فرآیند بهینه‌سازی هایپرپارامترها برای هر الگوریتم با استفاده از روش اعتبارسنجی متقابل انجام گرفت. به‌همین منظور مجموعۀ داده‌ها به دو بخش آموزش (80 درصد) و آزمون (20 درصد) تقسیم‌بندی شدند. پس از اجرای مدل‌ها با استفاده از هایپرپارامترهای بهینه‌شده، بررسی عملکرد مدل‌ها با تمرکز بر سه معیار ارزیابی دقت شامل میانگین مربعات خطا، جذر میانگین مربعات خطا و میانگین قدرمطلق خطا بر روی مجموعه داده آزمون که تا آن لحظه در فرآیند آموزش دخالتی نداشت، صورت گرفت. به‌منظور توضیح‌پذیری مدل‌ها و تخمین سهم هر ویژگی در پیش‌بینی‌ها برای نخستین‌بار در تحقیقات داخلی در حوزه صندوق‌های سرمایه‌گذاری از توضیح افزودنی شاپلی استفاده شده است. همچنین جهت سنجش معناداری الگوریتم‌ها نسبت به یکدیگر از آزمون‌ آماری ناپارامتریک دایبولد-ماریانو بهره‌برداری شده است.

یافته‌ها: مدل‌های مبتنی‌بر درخت (تقویت گرادیان و جنگل تصادفی) از منظر معیارهای ارزیابی دقت مدل در ۱۱ صندوق از ۱۲ صندوق به‌طور معنادار برتر از مدل‌های خطی (رگرسیون خطی و شبکه الاستیک) است. متغیر ارزش افزوده و بازدهی بازار تقریباً در تمامی مدل‌ها به‌عنوان مهم‌ترین محرک‌های بازدهی شناسایی شدند و بیشترین ارتباط را با تغییرات آلفا دارند. به‌علاوه، متغیرهایی همچون خالص ارزش دارایی‌ها و عمر صندوق نیز در مدل‌های خطی اهمیت چشم‌گیری پیدا کردند که نشان‌دهنده اثر اندازه و سابقه فعالیت صندوق بر پایداری عملکرد است. در مقابل، مدل‌های غیرخطی تأکید بیشتری بر ویژگی‌هایی نظیر ارزش افزوده دارند و سایر متغیرها را تا حد زیادی کم‌اهمیت‌تر نشان دادند.

نتیجه‌گیری: یافته‌های به‌دست‌آمده بر قابلیت‌ بالای مدل‌های یادگیری ماشین مبتنی‌بر درخت (تقویت گرادیان و جنگل تصادفی) در تحلیل داده‌های مالی و شناسایی الگوهای پنهان تأکید دارند. با این حال، اعتبار آن منوط به طراحی صحیح ارزیابی نظیر اعتبارسنجی متقابل و تنظیم هایپرپارامترهای بهینه است. همان‌طور که با توضیح افزودنی شاپلی ویژگی‌های موثر بر عملکرد صندوق‌ها در روش‌های خطی و غیرخطی مقایسه شدند، برتری مشاهده‌شدۀ تقویت گرادیان و جنگل تصادفی در این مطالعه با ماهیت غیرخطی سازگار است. این موضوع بازتابی از ماهیت مدل‌های یادگیری ماشین غیرخطی در استخراج تعاملات پیچیده است. تحلیل اهمیت متغیرهای ورودی بیانگر آن است که اگرچه تفاوت‌هایی در میزان و ترتیب اهمیت ویژگی‌ها میان مدل‌ها وجود دارد، اما برخی متغیرها به‌طور مداوم نقشی کلیدی در تبیین عملکرد صندوق‌ها ایفا می‌کنند.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Forecasting the Alpha of Equity Funds Using Supervised Machine Learning Algorithms

نویسندگان [English]

  • Reza Raei 1
  • Ali Khodarahmi 2
1 Department of Financial Institutions and Markets, Faculty of Accounting and Financial Sciences, College of management, University of Tehran, Iran.
2 Department of Financial Engineering and Risk Management., Faculty of Accounting and Financial Sciences, College of Management, University of Tehran, Tehran, Iran.
چکیده [English]

Objective

This study aims to forecast the performance of equity funds using supervised machine-learning algorithms. It seeks to identify the key drivers of fund performance and to propose an advanced forecasting framework that enables investors to pinpoint funds capable of generating positive alpha. In doing so, investors can make more informed capital-allocation decisions and achieve higher returns relative to passive or underperforming funds. Beyond benefiting investors, the approach can enhance overall market efficiency and the optimal allocation of capital.

Methods

From a research-purpose perspective, the study is both developmental and applied. We collected and cleaned data on 23 variables for 12 equity funds. Supervised learning models—linear (linear regression and elastic net) and tree-based (random forest and gradient boosting)—were implemented in Python. To maximize predictive accuracy and mitigate overfitting, hyperparameters for each algorithm were tuned via cross-validation. The dataset was split into training (80%) and test (20%) partitions. After fitting models with the optimized hyperparameters, out-of-sample performance was evaluated on the held-out test set using three accuracy metrics: mean squared error (MSE), root mean squared error (RMSE), and mean absolute error (MAE). For model interpretability and feature attribution, we employed Shapley Additive Explanations (SHAP). Relative predictive accuracy across algorithms was assessed using the Diebold–Mariano test.

Results

Tree-based models (gradient boosting and random forest) significantly outperformed linear models (linear regression and elastic net) on the evaluation metrics for 11 of the 12 funds. The value-added variable and the market return emerged as the most important return drivers across nearly all models and showed the strongest association with changes in alpha. Additionally, variables such as total net asset (TNA) and fund age exhibited pronounced importance in linear models, indicating that fund size and track record contribute to performance persistence. By contrast, nonlinear models placed greater emphasis on features like value-added and tended to down-weight many of the remaining variables.

Conclusion

The results underscore the strong capability of tree-based machine-learning models (gradient boosting and random forest) to analyze financial data and uncover latent patterns. Their validity, however, hinges on sound evaluation design—most notably cross-validation and careful hyperparameter tuning. As SHAP facilitated a comparative view of the determinants of fund performance in linear versus nonlinear settings, the observed superiority of gradient boosting and random forest in this study aligns with their capacity to capture nonlinearities and complex interactions. Although the magnitude and ranking of feature importance vary across models, several variables consistently play a pivotal role in explaining fund performance. A major contribution of this research is to offer methodologies that, in addition to individual investors, fund managers, financial advisors, and institutional investors—such as banks, insurance companies, and pension funds responsible for large pools of capital—to more accurately identify superior funds and optimize their portfolios using machine-learning algorithms. The proposed models may also intensify healthy competition between active and passive investment funds.

کلیدواژه‌ها [English]

  • active asset management
  • equity funds
  • Jensen’s alpha
  • fund performance forecasting
  • supervised machine learning