Főoldal > Timetable > Session details > Contribution details

Közreműködés Előadás

Debreceni Egyetem - D terem
5. SZUPERSZÁMÍTÁSTECHNIKA, ADATTÁROLÁS, FELHŐ-RENDSZEREK

Ha(doop), akkor adatok

Előadók

  • Úr SZALAI László

Elsődleges szerzők

Témakör

5.6 Big Data

Magyar nyelvű tematika (min. 1000 karakter, max. 2000 karakter)

A Hadoop egy adattároló platform, amely tartalmaz egy noSQL alapú adatbáziskezelőt, illetve egy elosztott filerendszert. Egy teljesen ingyenes Linux alapú megoldással és KVM alapú virtualizációval összeraktunk egy 4 node-os Hadoop klasztert, amely egy darab fizikai gépre volt dedikálva. Célunk egy szenzoradatokat gyűjtő megoldás implementálása volt, amelyben a beépített komponensek segítségével (p. Flume, Hive, Impala, stb.) automata JSON filefeltöltéssel és HiveQL lekérdezéssel teszteltük a Hadoop Mapreduce tulajdonságát. A tesztek alapján megállapítottuk, hogy a Hadoop érzékeny a memória méretére, a diszk IO sebességekre, illetve a node-ok közötti hálózati sebességre. A KVM alatt a virtio drivereket használva sikerült az egyes virtuális gépek diszksebességeit és a közöttük lévő hálózati sebességeket komolyan megemelni, így a node-ok közötti kommunikáció közel 10 Gbit/sec volt. A lekérdező oldalon az Impala natív párhuzamos működése hozta a lekérdezések sebességének növekedését, illetve válaszidők csökkenését.

Angol nyelvű előadáscím

Ha(doop), then bigdata

Angol nyelvű tematika (min. 1000 karakter, max. 2000 karakter)

Hadoop is a data storage system that contains a database handler based on noSQL and a distributed filesystem. We created it under Linux with KVM virtualization, assembled a cluster with four sides on a dedicated physical server. Our goal was to implement a system to collect sensor data. We used for this internal Hadoop components like Flume, Hive, Impala, and we tested the Mapreduce property of Hadoop with JSON data uploading and HiveQL queries. According to the tests we determined, Hadoop is sensible for the size of memory, the disk IO speed and the network communication speed between the nodes. Under the KVM we used the virtue drivers to improve the disk IO of the nodes and the interconnection network speed. It was approximately 10 Gbit/sec. On the query-site we tested the Impala component with it’s native parallel functioning and this brought the speed improvement of the query speeds and the faster response times. Conclusion: the Hadoop technology is going to be the leading big-data technology and easy to build a simple system for testing purposes.