Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Distributed processing of elevation data by means of apache hadoop in a small cluster
Autoři: Komárková Jitka | Špidlen Jakub | Bhattacharya Devanjan | Horák Oldřich
Rok: 2013
Druh publikace: článek ve sborníku
Název zdroje: ICSOFT 2013 - Proceedings of the 8th International Joint Conference on Software Technologies
Název nakladatele: Institute for Systems and Technologies of Information, Control and Communication (INSTICC)
Místo vydání: Setubal
Strana od-do: 340-344
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Distribuované zpracování výškových dat s využitím apache hadoop v malém clusteru Geoinformační technologie vyžadují rychlé zpracování velkých a prudce narůstajících objemů všech typů prostorových dat. Paralelní zpracování a distribuované systémy představují technologie, které jsou schopné poskytnout požadované služby s přiměřenými náklady. MapReduce je konrétní příklad tohoto přístupu. MapReduce byl úspěšně implementován ve velkých clusterech v několika různých institucích, včetně zpracování prostorových a obrazových dat. Tento příspěvek se zabývá jeho implementací a následnou výkonností v malém clusteru (složeném z několika běžných osobních počítačů) při zpracování velkoobjemových prostoro´vých dat. Využita byla open-source implementace of MapReduce - nazvaná Apache Hadoop. Příspěvek je zaměřen na nízkonákladové řešení a zabývá se rychlostí zpracování a distribuováním zpracovávaných souborů. Autoři realizovali řadu experimentů, aby mohli vyhodnotit přínosy distribuovného zpracování v malém clusteru a najít případné limity řešení. Jako nejdůležitější kritéria pro vyhodnocení výkonnosti jsou použity velikost zpracovávaných souborů a počet zpracovávaných hodnot. V rámci experimentů byla použita bodová výšková data. Apache Hadoop; distribuované zpracování; výšková data; malý cluster
eng Distributed processing of elevation data by means of apache hadoop in a small cluster Geoinformation technologies require fast processing of high and quickly increasing volumes of all types of spatial data. Parallel computational approach and distributed systems represent technologies which are able to provide required services, with reasonable costs. MapReduce is one example of such approach. It has been successfully implemented in large clusters in several instances. The applications include spatial and imagery data processing. The contribution deals with its implementation and operational performance using only a very small cluster (consisting of a few commodity personal computers) to process large-volume spatial data. Open-source implementation of MapReduce, named, Apache Hadoop, is used. The contribution is focused on a low-price solution and it deals with speed of processing and distribution of processed files. Authors run several experiments to evaluate the benefit of distributed data processing in a small-sized cluster and to find possible limitations. Size of processed files and number of processed values is used as the most important criteria for performance evaluation. Point elevation data were used during the experiments. Apache Hadoop; distributed processing; elevation data; small cluster