Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Feature extraction from unstructured texts as a combination of the morphological and the syntactic analysis and its usage in fake news classification tasks
Autoři: Szabo Nagy Kitti | Kapusta Jozef | Munk Michal
Rok: 2023
Druh publikace: článek v odborném periodiku
Název zdroje: Neural Computing and Applications
Název nakladatele: Springer
Místo vydání: New York
Strana od-do: 22055-22067
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Extrakce rysů z nestrukturovaných textů jako kombinace morfologické a syntaktické analýzy a její využití v úkolech klasifikace fake news V tomto článku je navržena nová technika extrakce příznaků, která je považována za nezbytnou součást zpracování přirozeného jazyka. Extrakce rysů je proces transformace nestrukturovaného textu do formátu, který je počítačově rozpoznatelný. To znamená transformaci na vektor čísel. Studie hodnotí a porovnává výkon tří metod: M1, což je základní metoda TfIdf; M2, který kombinuje TfIdf s POS tagy; a M3, nová technika nazvaná MDgwPosF, která zahrnuje vážené hodnoty TfIdf založené na hloubkách slov a relativní frekvenci POS tagů. Primárním cílem studie je posoudit a porovnat výkonnost těchto metod, se zvláštním důrazem na hodnocení výkonnosti M3 ve srovnání s M1 a M2. V této studii byly použity dva různé datové soubory a dopředné neuronové sítě LSTM a GRU. Výsledky ukázaly, že dopředný model s navrženou metodou MDgwPosF v mírné topologii dosáhl nejlepšího výkonu napříč různými opatřeními. Automaticky vytvořená datová sada fungovala lépe než ruční datová sada. Rozdíly mezi metodami a topologiemi nebyly statisticky významné. Byly prokázány statisticky významné rozdíly mezi klasifikačními modely. Metoda MDgwPosF dosáhla vyšší přesnosti ve srovnání se základní linií TfIdf, což naznačuje, že začlenění dalších informací do vektoru může zvýšit výkon TfIdf. Syntaktická analýza; Morfologická analýza; Extrakce funkcí; Klasifikace falešných zpráv; Neuronové sítě
eng Feature extraction from unstructured texts as a combination of the morphological and the syntactic analysis and its usage in fake news classification tasks In this paper, a new technique of feature extraction is proposed, which is considered an essential part of natural language processing. Feature extraction is the process of transformation of the unstructured text to a format which is recognizable by computers. This means a transformation to a vector of numbers. The study evaluates and compares the performance of three methods: M1, which is the baseline method TfIdf; M2, which combines TfIdf with POS tags; and M3, a novel technique called MDgwPosF that incorporates weighted TfIdf values based on word depths and the relative frequency of POS tags. The primary focus of the study is to assess and compare the performance of these methods, with particular emphasis on evaluating how M3 performs in comparison with M1 and M2. Two different datasets and feed-forward, LSTM and GRU neural networks were used in this study. The results showed that the feed-forward model with the proposed method MDgwPosF in moderate topology achieved the best performance across various measures. The dataset created automatically performed better than the manual dataset. The differences between methods and topologies were not statistically significant. Statistically significant differences between the classification models were proven. The MDgwPosF method achieved higher accuracy compared to the baseline TfIdf, indicating that incorporating additional information into the vector can enhance the performance of TfIdf. Syntactic analysis; Morphological analysis; Feature extraction; Fake news classification; Neural networks