Univerzita PardubiceFakulta ekonomicko- správní

Univerzita Pardubice

Zaměstnanci
|
Studenti
English

Publikace detail

Real-time big data webmining and data processing

Autoři: Hovad Jan

Rok: 2013

Druh publikace: software

Strana od-do: nestránkováno

Tituly:

Jazyk	Název	Abstrakt	Klíčová slova
cze	Analýza a zpracování velkého objemu dat při webminingu	Zdrojový kód reprezentuje back-end webové aplikace. Je napsaný v jazyce Python verze 2.7, gui není potřebné protože skript běží ve specifických časových intervalech automaticky na telefonu/PC. Front-end aplikace lze vytvořit individuálně (JS, PHP, mySQL). Například: http://space-walk.info/phd/pages/cz/realmining.php. Hlavním cílem je analýza velkého množství dat z různorodých webových serverů v reálném čase a jejich vizualizace pomocí vybraných API. Pro tento účel jsou využity služby jako je Plot.ly a Google Apps společně s mySQL, PHP, Javascriptem. Kód obsahuje základní třídy, které byly vytvořeny autorem k dosažení stanovených cílů. MLStripper(HTMLParser): - čistí html strukturu (tagy, JS, atp.) ParseIt: - analyzuje cílové webové struktury - využívá Counter kolekci a knihovnu BeautifulSoup pro snazší transformaci HTML do tříd (elegantní přístrup k atributům) - data ukládá do asociativních polí - slovníků, i vícerozměrných - slova filtruje pomocí nežádoucích slovníků Badwords: - manipulace se slovníky nechtěných slov, využití dle potřeby, obvykle stačí seznam stop slov PublishResults: - využívá služby Plot.ly, API pro vizualizaci dat v podobě grafů - nutné nastavení app_cfg.py pro přístup k mySQL a API účtu SpecificAnalyzes: - vyhledává kontexty nejvíce populárních slov na základě parametrické vzdálenosti Crimes - dohledává množinu slov vazaných ke konkrétnímu trestnému činu - v případě pozitivního výskytu prohledává JSON slovník měst ČR nad 5 000 obyvatel - JSON je využit kvůli skloňování a různým tvarům slov	python, webmining, velká data
eng	Real-time big data webmining and data processing	The source code represents the backend of web application. It is written in the Python 2.7, gui is not neccessary because the script is run in the specified time interval automatically by Phone/PC. Front-end can be made individually (JS, PHP, mySQL). For example: http://space-walk.info/phd/pages/cz/realmining.php. The main goal is to analyze BIG DATA volumes from the websites in the real-time and visualise them through the selected API. The Plot.ly and Google services are used in this case along with mySQL, PHP, Javascript to handle processing and visualisation. Code includes basic classes to handle HTML structure: MLStripper(HTMLParser): - clears the HTML structure (tagy, JS, atp.) ParseIt: - analyses the target websites - utilizes Counter collection and BeautifulSoup library for easier HTML transformation to classes, which allows elegant atribute handling - saves data into associative arrays, dictionaries, sometimes in the multidimensional structure - words are filtered by the bad word dictionaries Badwords: - manipulation with the bad word dictionaries, usage is optional, the stopwords.txt is usualy good enough PublishResults: - utilizes Plot.ly service as an API to visualize graphs - necessary to set up the app_cfg.py to access mySQL and API account SpecificAnalyzes: - searches top word contexts, based on the parametrical values - distance Crimes - searches through the set of words that are familiar to specific crime - in case of positive occurrance, the JSON dictionary of towns is scanned and the adequate town is returned (only for towns with more than 5 000 inhabitants). - JSON is utilized because of complicated structure of the Czech language	python, webmining, big data