Főoldal > Timetable > Session details > Contribution details

Közreműködés Előadás

Debreceni Egyetem - D terem
5. SZUPERSZÁMÍTÁSTECHNIKA, ADATTÁROLÁS, FELHŐ-RENDSZEREK

Big Data kihívások a genomikában

Előadók

  • Dr. BARTA Endre

Elsődleges szerzők

Témakör

5.6 Big Data

Magyar nyelvű tematika (min. 1000 karakter, max. 2000 karakter)

A 80-as évek végétől kezdve a bioinformatika számítási és tárhelyigénye együtt fejlődött az informatikával. A bioinformatikusok mindig is élenjártak a legújabb információs technológiák használatában. A szekvencia analízis során az informatikai kihívás mindig is a DNS szekvenálás során keletkezett szekvencia adatok tárolása és elemzése volt. 2005-ben a 454 cég kifejlesztett egy új szekvenálási módszert, ami forradalmasitotta a genomikát. Ma a legkorszerűbb szekvenátorok már egy-két napos futással 4 milliárd darab 2x125 bázispáros szekvenciát tudnak leolvasni. Egy bázispár egy karakter, de tartozik hozzá egy minőségi érték és minden szekvenciához azonosító is. Így például csak a kínai BGI-ban naponta 6 TByte tömörített adat keletkezik. Ma az újgenerációs szekvenálási adatokat archíváló adatbázis több mint 1.5 petabyte adatot tárol. Ez akkora kihívás, hogy csak három központ, az Európai Bioinformatikai Intézet, az amerikai NCBI és a japán DDBJ képes rá.

Ennek a hatalmas adatmennyiségnek nem csak a tárolása, hanem a feldolgozása is nagy informatikai kihívás. A használt genomikai, bioinformatikai programoknak, pipeline-oknak több olyan sajátosságuk van, amelyek a szuperszámítástechnikában korábban nem voltak megszokottak. Ilyen például, hogy ezeknek a programoknak viszonylag kicsi a lebegőpontos számítási igényük, ugyanakkor hatalmas I/O forgalmat bonyolítanak, és sokszor a memóriaigényük is terabyte-os nagyságrendű. Emiatt a szokásos MPI párhuzamosítás helyett legtöbbször csak SMP környezetben lehet futtatni a feladatokat. Nagy probléma az is, hogy még az SMP környezetben is az egy pipeline-ba tartozó feldatoknak csak egy részét lehet párhuzamosítani, ezért ha az egész feladat számára lefoglaljuk a processzorokat, akkor azok közben sokszor kihasználatlanok lesznek. Mindezek alapján a világ vezető tudományos szuperszámítógépeinél a genomikai alkalmazások használatát általában külön klasztereken végzik és speciális csoportok segítik a kutatók munkáját.

Angol nyelvű előadáscím

Big Data challenges in the genomics

Angol nyelvű tematika (min. 1000 karakter, max. 2000 karakter)

The processor needs of the bioinformatics grew up parallel with the development of the informatics already from the Eighties. The bioinformaticians were therefore always pioneers in the use of the latest informatics technologies. Inside the bioinformatics the biggest informatics challenge was always the storage and analysis of the sequence data having come from the DNA sequencing. In 2005 the company named ‘454’ developed a new sequencing technology, which revolutionized the genomics. Today, the most advanced sequencing machines can read 4 billions 2x125 basepairs DNA sequence after only a few days running. One basepair is one character, but there are also quality scores and long IDs belonging to each sequence. That results in 6 TByte compressed sequencing data each day for example just in the Chinese BGI sequencing facility. Today, the Sequence Read Archive database stores more then 1.5 Petabyte compressed data. This is such a big challenge that only three center in the world, the European Bioinformatics Institute, the American NCBI and the Japanese DDBJ is able to do it.

It is not only the storage but also the processing and analysis of this huge data is a big informatics challenge. In addition, the genomic and bioinformatic programs and pipelines have special characteristics, which were unknown earlier in the ordinary HPC computing. Such are for example that these programs demand relatively small floating-point calculations, but they are very I/O intensive and they need memory sometimes in Terabyte order. This is why these programs are usually not parallelized in the usual MPI only in the SMP environment. It is also a big problem that even in an SMP environment during the execution of the pipeline only some parts are parallelized therefore the whole processor time cannot be utilized. Based on these special characteristics, at the world’s leading supercomputing centers there are usually dedicated clusters and special support teams to help the genomics analyses.