Atvira duomenų bazė, kurioje daugiau nei pusė milijono įrašų, o joje esantys duomenys gali būti naudojami tiriant medžiagas ir kuriant vaistus. Skamba neįtikėtinai? Tokia unikalia kristalografine duomenų baze, vadinama COD, Vilniaus universiteto (VU) mokslininkai rūpinasi jau nuo 2007 m. Kaip vyksta darbas su tokia duomenų baze ir ar visi gali ja naudotis?
Kristalografinė duomenų bazė COD yra pasaulinės bendruomenės kūrinys, kurios duomenis pildyti ir naudoti gali kiekvienas – duomenų bazėje įgyvendinta paieška pagal daugybę parametrų, tačiau norintys gali ir tiesiog atsisiųsti visus COD esančius įrašus ir paiešką bei peržiūrą atlikti savo kompiuteryje arba naudoti specialius programinius įrankius darbui su kristalografiniais duomenimis. Vienas iš žmonių, besirūpinančių duomenų bazės priežiūra, jos duomenų kokybe, yra VU Gyvybės mokslų centro (GMC) vyr. mokslo darbuotojas ir VU Matematikos ir informatikos fakulteto (MIF) alumnas dr. Andrius Merkys. Jis yra vienas iš mokslininkų, vystančių COD projektą. VU MIF bioinformatikos studijas, sujungiančias biologiją, informatiką ir matematiką, baigęs vyras prie projekto dirba jau nuo trečio kurso. Mokslininkas šią duomenų bazę lygina su laisvąja internetine enciklopedija „Vikipedija“: „Norint ką nors į COD duomenų bazę įrašyti, būtina atitikti duomenų kokybei keliamus reikalavimus ir nurodyti duomenų kilmę – labai panašiai kaip ir „Vikipedijoje“, kur teigiant vieną ar kitą dalyką reikia šaltinio.“ Jau ne vienerius metus COD „gyvena“ VU serveriuose, septynioliktus metus duomenų bazės vystymui vadovauja VU GMC mokslininkas dr. Saulius Gražulis.
Dr. Andrius Merkys
Šiuo metu duomenų bazę sudaro įspūdingas įrašų skaičius – daugiau kaip pusė milijono. Ją perėmus VU mokslininkams, įrašų padaugėjo dešimt kartų ir kasmet padidėja maždaug po 40 tūkstančių. Anot dr. A. Merkio, pagrindinė COD ypatybė ir stiprybė yra atvirumas: ši duomenų bazė yra didžiausias atviras tokio pobūdžio duomenų išteklius. Esant tokiam duomenų kiekiui, itin svarbu užtikrinti jų kokybę. Nors dauguma procesų automatizuoti, tačiau duomenų bazės prižiūrėtojams tenka užtikrinti, kad ji visą laiką būtų pasiekiama, susitvarkytų su apkrovomis. „Taip pat turime stebėti diagnostinius pranešimus, reguliariai atnaujinti programinę įrangą, užbėgti už akių galimoms klaidoms, atsakyti į bendruomenės klausimus“, – apie darbą su viena didžiausių kristalografinių duomenų bazių kalba dr. A. Merkys.
Vienas didžiausių iššūkių prižiūrint duomenų bazės veiklą – duomenų kokybės užtikrinimas. „Be kokybiškų duomenų nebus ir kokybiškų įžvalgų ar taikymui skirtų produktų, o duomenų klaidos gali ir nemažai kainuoti“, – sako dr. A. Merkys. Savo darbe COD vystytojai pirmiausia vadovaujasi Tarptautinės kristalografijos draugijos (IUCr) paskelbtais kristalografinių duomenų kokybės kriterijais. Kadangi duomenų srautas yra itin didelis, šiuo metu kuriama programinė įranga, kuri aptiktų nusižengimus kriterijams: „Tokius nusižengimų sąrašus peržiūrime patys ir, jei įmanoma, taisome arba pažymime taip, kad matytųsi naudotojams“, – pasakoja dr. A. Merkys.
Kaip mokslo labui tarnauja duomenų bazėje sukaupti duomenys? Pagrindinės šių duomenų panaudojimo sritys yra medžiagotyra ir vaistų kūrimas. Medžiagotyrininkai dažniausiai ieško jau egzistuojančių medžiagų, pasižyminčių jiems norimomis savybėmis, arba siekia tokias medžiagas sukurti. Kaip sėkmingus COD esančių duomenų panaudojimo pavyzdžius dr. A. Merkys pateikia Glazgo universiteto mokslininkų efektyvių vandenilio talpyklų ir Lozanos politechnikos instituto tyrėjų medžiagų, tinkamų naudoti elektronikoje, paieškas. „Tą daryti mokslininkus paskatino grafeno sėkmė – ši vieno anglies atomo storio medžiaga pasižymi įdomiomis savybėmis, žadančiomis inovatyvius taikymus medicinoje, elektronikoje, optikoje, be kita ko, ir baterijų bei sensorių pramonėje“, – apie praktinius duomenų bazės pritaikymo būdus pasakoja dr. A. Merkys.
Daugiau apie bioinformatikos mokslo kryptį galite sužinoti VU MIF internetinių laidų cikle „O kas toliau? VU MIF absolventų istorijos“.
Komentarų nėra. Būk pirmas!