Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

The Effect of Text Preprocessing Strategies on Detecting Fake Consumer Reviews
Autoři: Barushka Aliaksandr | Hájek Petr
Rok: 2019
Druh publikace: článek ve sborníku
Název zdroje: ICEBI 2019 : proceedings of the 2019 3rd International Conference on E-Business and Internet
Název nakladatele: ACM (Association for Computing Machinery)
Místo vydání: New York
Strana od-do: 13-17
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Vliv strategie předzpracování textu na detekci falešných spotřebitelských recenzí Detekce falešných recenzí získává na důležitosti díky rychlému růstu nákupů přes internet. Je zřejmé, že je důležité zvolit nejúčinnější algoritmus, aby bylo možné detekovat falešné (klamné, spamové) recenze, ať už pozitivní nebo negativní. Na druhou stranu je také důležité předběžně zpracovat textový obsah recenzí pro učení a později pro produkční prostředí. V této studii je zkoumána řada metod předzpracování textu, například dimenze atributů, tokenizace, odstranění častých slov, ořezávání a různá schémata vážení termů. Jako srovnávací klasifikátory se používají tři známé algoritmy strojového učení, včetně Naïve Bayes, neuronové sítě a podpůrného vektorového stroje. Zde ukazujeme, že strategie předzpracování textu jsou důležitými determinanty výkonu klasifikátorů. Zjistili jsme, že klasifikátory fungují lépe pro vysoko-dimenzionální datové sady reprezentované bigramy nebo trigramy vybranými podle ne-binárního váhového schématu. Ořezávání a odstranění častých slov se zdají být méně důležité.
eng The Effect of Text Preprocessing Strategies on Detecting Fake Consumer Reviews Fake review detection is getting crucial due to rapid growth of internet purchases. Obviously, it is important to choose the most efficient algorithm in order to detect fake (deceptive, spam) reviews either positive or negative. On the other hand, it is also important to pre-process the textual content of the reviews for training and later for production environment. A number of text preprocessing methods are examined in this study, such as feature dimensionality, tokenization, removal of stop words, stemming and different term weighting schemes. Three well-known machine learning algorithms are used as benchmark classifiers, including Naïve Bayes, neural network and support vector machine. Here we show that text preprocessing strategies are important determinants of the classifiers' performance. We find that the classifiers perform better for high-dimensional datasets represented by bigrams or trigrams selected according to the non-binary weighting scheme. Stemming and stopword removal seem to be less important. Fake; reviews; text preprocessing; bag of words; machine learning