RNDr. Jan Vybíral, Ph.D.

Držitel Neuron Impulsu 2015

Celkový objem dat, který je v současnosti nutné zpracovávat, roste exponenciálně nebo i rychleji. Informační hodnota těchto dat nicméně tak rychle neroste. Nacházet odpovědi v tomto množství dat je tedy čím dál tím těžší. Cílem projektu Jana Vybírala je teoretická analýza i praktická aplikace metod komprimovaného snímání. Tento interdisciplinární obor kombinuje výsledky funkcionální analýzy, statistiky a numeriky pro efektivní zpracování vysocedimenzionálních dat. V praktické části projektu se Jan Vybíral zaměří na data z oboru fyziky pevných látek a bioinformatiky.

Odposlouchávat každého je zbytečné. Tajné služby Spojených států ještě nedávno sledovaly telefonní hovory a elektronickou poštu skoro všech obyvatel světa. Pro jistotu, aby zachytily případné plány teroristů. Američané sice získali triliony dat, ale je otázka, jak dlouho potvrá, než v obrovském informačním balíku najdou podstatné a důležité údaje. Zvláště když k odhalení teroristického činu jde hlavně o čas. Zároveň je zřejmé, že si USA všeobecným „šmírováním“, byť ve chvályhodném úmyslu, proti sobě popudily i svoje spojence. Miliony dat ale nesbírají jen špionážní centrály. Spousty údajů poskytují diagnostické přístroje v nemocnicích, analyzátory všeho možného ve vědeckých ústavech a v průmyslových firmách. Orientaci v takové záplavě zvládnou už jen matematické postupy. Ovšem mega-data mají pořád náskok. Určitou nadějí, jak příval informací zkrotit, představuje projekt matematika Jana Vybírala. Na svůj další výzkum nyní získal Neuron Impuls ve výši půl milionu korun.

Můžete svůj projekt představit? 
Objem dat prudce roste a spolu s tím je nutné vyvíjet metody strojového učení, které se s datovou explozí dokáží patřičně vyrovnat. V projektu chci studovat teoretické i praktické vlastnosti těchto metod. V teoretické části projektu jde zejména o odhady chyb algoritmů. V praktické využijeme metody ke zpracování dat z bioinformatiky. Společně s kolegy z Freie Universität Berlin studujeme použití matematických metod LASSO, l_1-SVM a 1-bit Compressed Sensing pro včasnou diagnostiku rakoviny analýzou dat z hmotnostního spektrografu vzorků krve. Dále jsme se společně s kolegy z Fritz-Haber-Institut Berlin zaměřili na prudce rostoucí množství dat v oboru fyziky pevných látek.

Jak probíhá spolupráce s fyziky?
Oni umí s pomocí počítače určit vlastnosti pevných látek, například jakou budou mít barvu, vodivost , schopnost katalýzy a podobně. Navrhnou například látku z dvaceti „stavebních kamenů“, které lze libovolně zkombinovat a vytvořit třeba 100 tisíc materiálů. Ovšem propočítat jejich vlastnosti trvá velmi dlouho. Fyzikové se nás proto zeptali, jak mezi takovým počtem najít třeba materiál s vysokou pevností a vodivostí, nebo jinou užitečnou kombinací. Zkusili jsme vybrat z celkového počtu jenom asi 150 materiálů, u kterých jsme propočítali všechny jejich vlastnosti. Ze závislosti mezi tím, jaký to byl materiál a jaké měl vlastnosti, jsme odvodili přibližný výpočet, který je velmi rychlý. Nebude tedy problém provést tento zrychlený výpočet pro všech 100 tisíc materiálů. Postupně vytvoříme s německými fyziky mapu sloučenin, aby si udělali představu, co se v různých oblastech děje. Z bílých míst na mapě poté vytipují několik materiálů, které otestují podrobněji.

Co váš projekt obecně přinese medicinské praxi?
Například lékaři mají k dispozici data několik set pacientů, z nichž každý je popsán až miliony parametrů získanými z komplexních vyšetření. Ovšem je možné předpokládat, že jen malá část těchto parametrů skutečně hraje roli v diagnostice dané nemoci. Dalším přínosem je možnost předem stanovit nezbytný počet měření. Někdy se totiž stává, že lékaři získají data například od sto pacientů a teprve při zpracovávání zjistili, že by potřebovali údaje ještě od 50 dalších pacientů, což vyvolávalo zbytečné komplikace.

Takže se pro jistotu nabírá dat zbytečně mnoho?
Dochází k tomu často. Například Spojené státy monitorovaly téměř veškerou elektronickou komunikaci, aby jim náhodou nic nechybělo pro odhalení potenciálních teroristů. Podle mě dělali mnohdy zbytečnou práci a zbytečně shromažďovali data. Navíc potřebovali větší databáze, výkonnější počítače i více času na zpracování. Přitom by se dalo dosáhnout podobného výsledku se zlomkem dat.

S vývojem stále citlivější diagnostické techniky poroste množství mega-dat. Mají matematici pro tento stav nějaké řešení?
Viděl jsem na konferenci graf jak přibývá dat a jak roste úložná kapacita. Za pár let nageneruje civilizace tolik dat, že už je nebude kam ukládat. Pak nastane problém, jak zpracovávat data, která nemůžeme uložit. Přibývání dat je pro matematiky dobrá zpráva, protože mohou použít řadu postupů, které zvládne jen matematika. Například běžně si umíme představit deset bodů v třírozměrném prostoru. Poněkud složitější je představa stejného počtu bodů v šestirozměrném prostoru. Ale když bude sto bodů ve 12 tisícovém prostoru, přestávám věřit, že v takovém případě lze ještě něco vidět. Ovšem matematik umí spočítat vztahy mezi těmito body. Určí například, jaké jsou vzdálenosti mezi podprostory generovanými těmito body, nebo zda tyto body neleží blízko nějakého podprostoru malé dimenze.

Jak využijete půl milionu korun od Nadačního fondu Neuron? 
Peníze umožní jednomu doktorandu práci na vysoce aktuálních interdisciplinárních tématech kombinovanou s pobyty v zahraničí.

Text: Josef Matyáš

 

Napsali o něm:

RNDr. Jan Vybíral, Ph.D.

RNDr. Jan Vybíral, Ph.D. se narodil v roce 1979. Po ukončení magisterského studia na Univerzitě Karlově v roce 2002 dále studoval na Friedrich-Schiller Universität v Německu, kde se habilitoval akademickým titulem Dr. rer.nat. Tituly Ph.D. a RNDr. obhájil na Univerzitě Karlově. Působil jak vědecký asistent na Friedrich-Schiller Universität, na Rakouské akademii věd a Technické Univerzitě v Berlíně. V současné době pracuje jako vědecký asistent na Matematicko-fyzikální fakultě UK na Katedře matematické analýzy. Zúčastnil se řady mezinárodních konferencí a vědeckých pobytů v Arménii, Belgii, Finsku, Německu, Hong-Kongu, SAR, Maďarsku, Itálii, Kanadě, Polsku, Portugalsku, Rakousku, Rusku, Skotsku, Singapuru, Turecku a USA.