Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Using of n-grams from morphological tags for fake news classification
Autoři: Kapusta Jozef | Drlik Martin | Munk Michal
Rok: 2021
Druh publikace: článek v odborném periodiku
Název zdroje: PeerJ Computer Science
Název nakladatele: PEERJ INC
Místo vydání: LONDON
Strana od-do: e624
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Využití n-gramů z morfologických značek pro klasifikaci falešných zpráv Výzkum technik pro účinnou detekci falešných zpráv se stal velmi potřebným a atraktivním. Tyto techniky mají zázemí v mnoha výzkumných disciplínách, včetně morfologické analýzy. Několik výzkumníků uvedlo, že jednoduché n-gramy související s obsahem a POS tagování se ukázaly jako nedostatečné pro klasifikaci falešných zpráv. V posledním desetiletí však nerealizovali žádné výsledky empirického výzkumu, které by tato tvrzení experimentálně potvrdily. Vzhledem k tomuto rozporu je hlavním cílem článku experimentálně zhodnotit potenciál běžného použití n-gramů a POS tagů pro správnou klasifikaci falešných a pravdivých zpráv. Datový soubor publikovaných falešných či pravdivých zpráv o současné pandemii Covid-19 byl předem zpracován pomocí morfologické analýzy. Výsledkem byla příprava n-gramů POS tagů, které byly dále analyzovány. Byly navrženy tři techniky založené na POS značkách, které byly aplikovány na různé skupiny n-gramů ve fázi předzpracování detekce falešných zpráv. Jako první byla zkoumána velikost n-gramů. Následně byla zakreslena nejvhodnější hloubka rozhodovacích stromů pro dostatečnou generalizaci. Nakonec byly porovnány míry výkonnosti modelů založených na navržených technikách se standardizovanou referenční technikou TF-IDF. Uvažuje se o výkonnostních mírách modelu, jako je přesnost, precision, recall a f1-skóre, spolu s technikou desetinásobné křížové validace. Současně byla podrobně zkoumána otázka, zda lze techniku TF-IDF zlepšit pomocí POS značek. Výsledky ukázaly, že nově navržené techniky jsou srovnatelné s tradiční technikou TF-IDF. Zároveň lze konstatovat, že morfologická analýza může zlepšit základní techniku TF-IDF. V důsledku toho se statisticky významně zlepšily výkonnostní ukazatele modelu, precision pro falešné zprávy a recall pro skutečné zprávy.
eng Using of n-grams from morphological tags for fake news classification Research of the techniques for effective fake news detection has become very needed and attractive. These techniques have a background in many research disciplines, including morphological analysis. Several researchers stated that simple content related n-grams and POS tagging had been proven insufficient for fake news classification. However, they did not realise any empirical research results, which could confirm these statements experimentally in the last decade. Considering this contradiction, the main aim of the paper is to experimentally evaluate the potential of the common use of n-grams and POS tags for the correct classification of fake and true news. The dataset of published fake or real news about the current Covid-19 pandemic was pre-processed using morphological analysis. As a result, n-grams of POS tags were prepared and further analysed. Three techniques based on POS tags were proposed and applied to different groups of n-grams in the pre-processing phase of fake news detection. The n-gram size was examined as the first. Subsequently, the most suitable depth of the decision trees for sufficient generalization was scoped. Finally, the performance measures of models based on the proposed techniques were compared with the standardised reference TF-IDF technique. The performance measures of the model like accuracy, precision, recall and f1-score are considered, together with the 10-fold cross-validation technique. Simultaneously, the question, whether the TF-IDF technique can be improved using POS tags was researched in detail. The results showed that the newly proposed techniques are comparable with the traditional TF-IDF technique. At the same time, it can be stated that the morphological analysis can improve the baseline TF-IDF technique. As a result, the performance measures of the model, precision for fake news and recall for real news, were statistically significantly improved. Fake news identification; Text mining; Natural language processing; POS tagging; Morphological analysis