Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Spam Filtering Using Regularized Neural Networks with Rectified Linear Units
Autoři: Barushka Aliaksandr | Hájek Petr
Rok: 2016
Druh publikace: článek ve sborníku
Název zdroje: AIIA 2016 Advances in Artificial Intelligence
Název nakladatele: Springer
Místo vydání: Heidelberg
Strana od-do: 65-75
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Filtrování nevyžádané pošty pomocí regularizovaných neuronových sítí s rektifikovanými lineárními jednotkami Rychlý růst nevyžádaných a nežádoucích zpráv inspiroval vývoj mnoha anti-spamových metod. Metody strojového učení, jako je Naive Bayes (NB), podpůrné vektorové stroje (SVM) nebo neuronové sítě (NN) byly při kategorizaci spamu obzvláště účinné. Tyto metody automaticky sestavují seznamy slov a jejich váhy obvykle v módu balíků slov. Nicméně, tradiční vícevrstvý perceptron (MLP) obvykle trpí pomalou konvergencí ke horšímu lokálním minimu a problémem přeučení. K překonání tohoto problému používáme pro filtrování nevyžádané pošty regularizované NN s rektifikovanými lineárními jednotkami (RANN-ReL). Porovnáváme jejich výkon na třech testovacích datových sadách (Enron, SpamAssassin a SMS spamu) se čtyřmi algoritmy strojového učení běžně používaných v textovém klasifikaci, a to NB, SVM, MLP a k-NN. Ukázali jsme, že RANN-ReL překonává jiné metody pokud jde o přesnost klasifikace, chybně negativní a chybně pozitivní míry. Tento systém klasifikuje jak majoritní (oprávněné) tak minoritní (spam) třídy. Spamový filtr; Email; Sms; neuronová síť; regularizace; rektifikovaná lineární jednotka
eng Spam Filtering Using Regularized Neural Networks with Rectified Linear Units The rapid growth of unsolicited and unwanted messages has inspired the development of many anti-spam methods. Machine-learning methods such as Naïve Bayes (NB), support vector machines (SVMs) or neural networks (NNs) have been particularly effective in categorizing spam /non-spam messages. They automatically construct word lists and their weights usually in a bag-of-words fashion. However, traditional multilayer perceptron (MLP) NNs usually suffer from slow optimization convergence to a poor local minimum and overfitting issues. To overcome this problem, we use a regularized NN with rectified linear units (RANN-ReL) for spam filtering. We compare its performance on three benchmark spam datasets (Enron, SpamAssassin, and SMS spam collection) with four machine algorithms commonly used in text classification, namely NB, SVM, MLP, and k-NN. We show that the RANN-ReL outperforms other methods in terms of classification accuracy, false negative and false positive rates. Notably, it classifies well both major (legitimate) and minor (spam) classes. Spam filter; Email; Sms; Neural network; Regularization; Rectified linear unit