機(jī)器學(xué)習(xí)是許多生物學(xué)家用來(lái)分析大量數(shù)據(jù)的計(jì)算工具,幫助他們識(shí)別潛在的新藥。麻省理工學(xué)院的研究人員現(xiàn)在已經(jīng)在這些類型的機(jī)器學(xué)習(xí)算法中加入了一個(gè)新的特性,從而提高了他們的預(yù)測(cè)能力。
利用這種新的方法,計(jì)算機(jī)模型可以解釋他們分析數(shù)據(jù)的不確定性,麻省理工學(xué)院的研究小組發(fā)現(xiàn)了幾種有希望的化合物,這些化合物的目標(biāo)是導(dǎo)致結(jié)核病的細(xì)菌所需的一種蛋白質(zhì)。
這種方法以前曾被計(jì)算機(jī)科學(xué)家使用過(guò),但尚未在生物學(xué)上得到應(yīng)用,也可能在蛋白質(zhì)設(shè)計(jì)和許多其他生物學(xué)領(lǐng)域有用,西蒙斯數(shù)學(xué)系教授、麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)計(jì)算和生物學(xué)小組負(fù)責(zé)人邦尼·伯杰(Bonnie Berger)說(shuō)。
“這項(xiàng)技術(shù)是已知的機(jī)器學(xué)習(xí)子領(lǐng)域的一部分,但人們還沒(méi)有把它引入生物學(xué),”Berger說(shuō)。“這是一個(gè)范式的轉(zhuǎn)變,絕對(duì)是生物探索的方式?!?/span>
Berger和Bryan Bryson是麻省理工學(xué)院的生物工程助理教授,也是MGH、MIT和哈佛的拉根研究所的成員,他們是這項(xiàng)研究的高級(jí)作者。細(xì)胞系統(tǒng)。麻省理工學(xué)院研究生BrianHie是論文的主要作者。
更好的預(yù)測(cè)
機(jī)器學(xué)習(xí)是一種計(jì)算機(jī)建模,在這種模型中,算法學(xué)習(xí)根據(jù)已經(jīng)看到的數(shù)據(jù)進(jìn)行預(yù)測(cè)。近年來(lái),生物學(xué)家開(kāi)始利用機(jī)器學(xué)習(xí)來(lái)搜索潛在藥物化合物的龐大數(shù)據(jù)庫(kù),以找到與特定目標(biāo)相互作用的分子。
這種方法的一個(gè)局限性是,當(dāng)他們分析的數(shù)據(jù)與他們接受訓(xùn)練的數(shù)據(jù)相似時(shí),這些算法表現(xiàn)得很好,但它們并不擅長(zhǎng)評(píng)估那些與他們已經(jīng)看到的分子有很大不同的分子。
為了克服這一問(wèn)題,研究人員使用了一種叫做高斯過(guò)程的技術(shù),將不確定性值分配給算法所訓(xùn)練的數(shù)據(jù)。這樣,當(dāng)模型分析訓(xùn)練數(shù)據(jù)時(shí),他們也會(huì)考慮到這些預(yù)測(cè)的可靠性。
例如,如果進(jìn)入模型的數(shù)據(jù)預(yù)測(cè)某一特定分子與目標(biāo)蛋白質(zhì)的結(jié)合程度,以及這些預(yù)測(cè)的不確定性,該模型可以利用這些信息對(duì)蛋白質(zhì)-目標(biāo)相互作用進(jìn)行預(yù)測(cè),這是它以前從未見(jiàn)過(guò)的。該模型還估計(jì)了自己預(yù)測(cè)的確定性。在分析新的數(shù)據(jù)時(shí),模型的預(yù)測(cè)對(duì)于與訓(xùn)練數(shù)據(jù)有很大不同的分子來(lái)說(shuō),其確定性可能較低。研究人員可以利用這些信息來(lái)幫助他們決定實(shí)驗(yàn)測(cè)試哪些分子。
這種方法的另一個(gè)優(yōu)點(diǎn)是該算法只需要少量的訓(xùn)練數(shù)據(jù)。在這項(xiàng)研究中,麻省理工學(xué)院的研究小組用72個(gè)小分子及其與400多個(gè)蛋白質(zhì)的相互作用(稱為蛋白激酶)對(duì)模型進(jìn)行了訓(xùn)練。然后,他們能夠使用這個(gè)算法分析近11000個(gè)小分子,這些小分子是從鋅數(shù)據(jù)庫(kù)中提取的,鋅數(shù)據(jù)庫(kù)是一個(gè)公開(kāi)可用的儲(chǔ)存庫(kù),含有數(shù)百萬(wàn)種化合物。其中許多分子與訓(xùn)練數(shù)據(jù)中的分子非常不同。
利用這一方法,研究人員能夠識(shí)別出與他們所加入的蛋白激酶具有非常強(qiáng)的結(jié)合親緣關(guān)系的分子。其中包括三種人類激酶,以及在結(jié)核分枝桿菌中發(fā)現(xiàn)的一種激酶。這種激酶,PknB,是細(xì)菌生存的關(guān)鍵,但不是任何一線結(jié)核病抗生素的目標(biāo)。
研究人員隨后通過(guò)實(shí)驗(yàn)測(cè)試了他們的一些最成功之處,以了解他們與目標(biāo)的結(jié)合程度,并發(fā)現(xiàn)模型的預(yù)測(cè)非常準(zhǔn)確。在模型給出的最確定的分子中,大約90%被證明是真正的命中--遠(yuǎn)高于現(xiàn)有用于藥物篩選的機(jī)器學(xué)習(xí)模型的30%到40%的命中率。
研究人員還使用相同的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練不包含不確定性的傳統(tǒng)機(jī)器學(xué)習(xí)算法,然后讓它分析相同的11000個(gè)分子庫(kù)。他說(shuō):“沒(méi)有不確定性,這個(gè)模型就會(huì)變得非?;靵y,它提出了與激酶相互作用的非常奇怪的化學(xué)結(jié)構(gòu)?!?/span>
然后,研究人員采取了一些最有前途的PknB抑制劑,并測(cè)試他們?cè)诩?xì)菌培養(yǎng)培養(yǎng)基中生長(zhǎng)的結(jié)核分枝桿菌,并發(fā)現(xiàn)它們抑制細(xì)菌的生長(zhǎng)。這些抑制劑也在感染細(xì)菌的人免疫細(xì)胞中起作用。
一個(gè)好的起點(diǎn)
這種方法的另一個(gè)重要因素是,一旦研究人員獲得額外的實(shí)驗(yàn)數(shù)據(jù),他們就可以將其添加到模型中,并對(duì)其進(jìn)行再培訓(xùn),從而進(jìn)一步改進(jìn)預(yù)測(cè)。研究人員說(shuō),即使是少量的數(shù)據(jù)也能幫助模型變得更好。
Hie說(shuō):“每次迭代都不需要非常大的數(shù)據(jù)集。”“你可以用10個(gè)新的例子重新訓(xùn)練這個(gè)模型,這是一個(gè)生物學(xué)家很容易產(chǎn)生的東西?!?/span>
布萊森說(shuō),這項(xiàng)研究是多年來(lái)首次提出新的分子,可以針對(duì)PknB,并且應(yīng)該給藥物開(kāi)發(fā)人員一個(gè)很好的起點(diǎn),可以嘗試開(kāi)發(fā)針對(duì)激酶的藥物。他說(shuō):“我們現(xiàn)在為他們提供了一些新的線索,超出了已經(jīng)公布的范圍?!?/span>
研究人員還表明,他們可以利用同樣的機(jī)器學(xué)習(xí)來(lái)提高綠色熒光蛋白的熒光輸出,綠色熒光蛋白通常用于標(biāo)記活細(xì)胞內(nèi)的分子。它也可以應(yīng)用于許多其他類型的生物學(xué)研究,Berger說(shuō),他現(xiàn)在正用它來(lái)分析推動(dòng)腫瘤發(fā)展的突變。