Strukture, strukture in še strukture
Vir slike: Zaslonski posnetek spletne strani https://esmatlas.com/explore (vsaka pika na sliki predstavlja napovedano strukturo proteina)
Po tem, ko smo že poročali o velikem dosežku umetne inteligence pri napovedovanju proteinskih struktur z uporabo računalniškega modela AlphaFold, se je ta teden zgodil nov velik preboj. Raziskovalci in inženirke iz podjetja Meta so s svojim modelom napovedali tridimenzionalne strukture več kot 617 milijonov proteinov. Novonapovedane proteinske strukture razkrivajo velik del do sedaj neraziskanih metagenomskih sekvenčnih podatkov, torej to, kar številni imenujejo »temna snov« proteinskega vesolja.
Določanje tridimenzionalne strukture proteinov je ključno za razumevanje njihovih bioloških funkcij. Hkrati pa je eksperimentalna določitev tudi precej zamudno in velikokrat sploh neuspešno opravilo. Ko se strukture ne da določiti eksperimentalno, se raziskovalci zatečejo k računalniški napovedi, ki sloni na dejstvu, da tridimenzionalno strukturo proteina določa že nukleotidno zaporedje gena, ki protein kodira. Kljub dobremu razumevanju fizikalno-kemijskih osnov zvijanja proteinov zelo težko napovemo strukturo proteina zgolj na podlagi zaporedja. Zato so se številni raziskovalci zatekli k umetni inteligenci, ki temelji na tem, da se računalniški model na večji količini podatkov nauči, kakšna je povezava med zaporedjem proteina in njegovo tridimenzionalno zgradbo. Naučena umetna nevronska mreža vsebuje več milijonov ali celo milijard parametrov, ki opisujejo odvisnosti med umetnimi nevroni in tako določajo, kako se bo določeno zaporedje zvilo v omrežju. Takšna naučena umetna nevronska mreža nato omogoča napoved tridimenzionalne strukture z novimi proteinskimi zaporedji, ki jih takšen računalniški model prej še ni videl.
Raziskovalci in raziskovalke iz Mete so uspeli zgraditi svoj model za napoved, ki precej natančno napove strukture proteinov. Čeravno je model morda za kakšen odtenek manj natančen kot DeepMindov AlphaFold, pa je po drugi strani kar do 60-krat hitrejši. Za razliko od AlphaFolda, katerega natančnost izvira predvsem iz poznavanja evolucijskih odnosov med posameznimi aminokislinskimi ostanki v sekvenci, je model podjetja Meta osnovan kot jezikovni model in se pri napovedi opira zgolj na zaporedje aminokislin v vhodni sekvenci ter kakopak na izdatno učenje takšnega omrežja na že poznanih strukturah in zaporedjih. Razviti računalniški model deluje kot nekakšen »autocomplete« pri pisanju besed in stavkov. Omenimo za perspektivo zgolj še to, da naučena nevronska mreža vsebuje kar 15 milijard parametrov, ki določajo, kakšno strukturo bo zavzelo vhodno proteinsko zaporedje.
Z modelom so raziskovalci in raziskovalke v dveh tednih superračunalniškega računskega časa napovedali kar 617 milijonov struktur proteinov, kar je skoraj trikrat več, kot so jih napovedali z AlphaFoldom. Strukture izvirajo predvsem iz pomembne baze metagenomskih sekvenčnih podatkov. Ta v glavnem vsebuje sekvence, ki jih najdemo v okoljskih vzorcih tal ali pa v črevesju, pa vse do obskurnih mikroorganizmov in virusov, ki jih najdemo v najbolj odročnih koncih sveta, kot so denimo arktična okolja ali pa globokomorski mikroorganizmi. Z objavo napovedanih struktur smo tako prvič dobili natančnejši vpogled v strukturno biologijo tega neznanega dela proteinskega vesolja.
Kot je že skoraj v navadi, so raziskovalci in raziskovalke napovedne strukture prosto delili in ustvarili tako imenovani metagenomski atlas, v katerem lahko sami poiščemo želeno strukturo ali pa kar uporabimo model in napovemo novo strukturo. Razviti model predstavlja naslednji veliki dosežek umetne inteligence na področju napovedi proteinskih struktur po AlphaFoldu in tako odstira gostopletene zavese neznanega, za katerimi se skrivajo novi proteini in njih strukture, ki bodo gotovo pomembno vplivali na nadalnji razvoj in razumevanje biologije.
Do nativnega se je zvijal Uroš.
Dostop do baze: ESM Metagenomic Structure Atlas by Meta AI (esmatlas.com)
Vir: Evolutionary-scale prediction of atomic level protein structure with a language model. Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Nikita Smetanin, Robert Verkuil, Ori Kabeli, Yaniv Shmueli, Allan dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Salvatore Candido, Alexander Rives. bioRxiv 2022.07.20.500902; doi: https://doi.org/10.1101/2022.07.20.500902
Prikaži Komentarje
Komentiraj