Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Multimodal financial sentiment for stock return prediction
Autoři: Hájek Petr | Novotný Josef | Munk Michal | Munková Daša
Rok: 2025
Druh publikace: článek ve sborníku
Název zdroje: Procedia Computer Science, vol. 270
Název nakladatele: Elsevier B.V.
Místo vydání: Amsterdam
Strana od-do: 582-591
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Multimodální finanční sentiment pro predikci akciových výnosů Tento článek navrhuje nový multimodální framework hlubokého učení pro predikci akciových výnosů, který integruje heterogenní zdroje dat: technické indikátory, indexy investorského sentimentu na trhu a textový sentiment extrahovaný z přepisů konferenčních hovorů k výsledkům hospodaření. Navržený model využívá hybridní architekturu kombinující transformerový enkodér pro technickou modalitu a neuronové sítě pro tržní a textové modality. V rámci pozdní fúze je použita pozornost na úrovni modalit, která dynamicky váží příspěvky jednotlivých modalit. Model je vyhodnocen na rozsáhlém datovém souboru zahrnujícím 24 821 vzorků z 497 společností indexu S&P 500 za období 2010–2022. Výsledky ukazují, že navržený model překonává tradiční modely (LSTM, BiLSTM, CNN-LSTM) i alternativní fúzní strategie a dosahuje směrové přesnosti 59,94 % na testovací množině. Analýza vah pozornosti potvrzuje, že všechny tři modality významně přispívají k predikční výkonnosti. Tyto výsledky demonstrují celkovou efektivitu navrženého frameworku při přesné predikci abnormálních akciových výnosů v multimodálním nastavení. Multimodální fúze; Finanční sentiment; Akciový trh; Predikce; Konferenční hovor
eng Multimodal financial sentiment for stock return prediction This paper proposes a novel multimodal deep learning framework for stock return prediction that integrates heterogeneous data sources: technical indicators, market investor sentiment indices, and textual sentiment extracted from earnings conference call transcripts. The proposed model employs a hybrid architecture combining transformer encoder for the technical modality and neural networks for market and textual modalities. A modality-level attention mechanism is used in a late fusion setup to dynamically weight the contributions of each modality. We evaluate our model on a large-scale dataset comprising 24,821 samples from 497 S&P 500 companies over the period 2010–2022. The results show that our model outperforms traditional models (LSTM, BiL-STM, CNN-LSTM) and alternative fusion strategies, achieving a directional accuracy of 59.94% on the test set. Attention weight analysis confirms that all three modalities contribute meaningfully to prediction performance. These results demonstrate the overall effectiveness of the proposed framework in accurately predicting abnormal stock returns in a multimodal setting. Multimodal fusion; Financial sentiment; Stock market; Prediction; Earnings conference calls