大數(shù)據(jù)分析在選擇病毒疫苗中起著關(guān)鍵作用。現(xiàn)在,這聽起來像是科幻小說的摘錄。但是實際上,現(xiàn)代大數(shù)據(jù)分析技術(shù)的實際應(yīng)用可以改善當(dāng)今的生活。
在大數(shù)據(jù)分析在病毒疫苗研究中的應(yīng)用中,我們將為您講述一個有趣的故事。我們將討論病毒(非計算機(jī)類型),流行性感冒以及第一種疫苗的發(fā)明方法。最重要的是,我們將討論一些用于分析生物學(xué)數(shù)據(jù)的大數(shù)據(jù)分析技術(shù)和工具。此外,我們還將討論基因組數(shù)據(jù)的一種基本可視化技術(shù):系統(tǒng)發(fā)育樹。我們將在預(yù)測流行性感冒的變化并為病毒的未來行為建模時看到如何實施樹木。到本文結(jié)尾,您甚至將學(xué)習(xí)有關(guān)平臺的知識,在這里您可以存儲和分析基因數(shù)據(jù)。
但是,讓我們一次邁出一步。首先,我們將研究一般的病毒及其功能。
病毒疫苗:病毒機(jī)制,又稱病毒生命周期
什么是病毒?
生物是復(fù)雜的系統(tǒng)。我們已經(jīng)習(xí)慣了大型且可見的動物-哺乳動物,鳥類,爬行動物。但是,也有微觀的看不見的生物,它們實際上生活在我們中間,或者更確切地說,是在我們內(nèi)部。小細(xì)菌或病毒細(xì)胞會滲透到我們的身體,使我們生病。但是,細(xì)菌和病毒是兩種不同類型的生物。常見的誤解是疾病的原因主要是細(xì)菌。細(xì)菌是一組不同的細(xì)胞,但實際上,其中只有1%會引起疾病。其余的完全是無害的。病毒呢?好吧,它們幾乎是硬幣的另一面(如果那個硬幣很不公平),因為幾乎所有硬幣(大約99%)都會生病。
而且,如果病毒對其他生物如此危險,那么仔細(xì)研究它們的功能無疑是有道理的。
病毒如何起作用?
病毒起作用的方式是通過滲透宿主或宿主細(xì)胞。然后,它們利用這些細(xì)胞在生物體內(nèi)復(fù)制和傳播,并且通常會造成各種破壞。從技術(shù)上講,進(jìn)入細(xì)胞之前,病毒被稱為病毒體。的確,幾乎每個人都使用病毒一詞來描述這兩個階段。不過,這是一個有用的事實,您可以在下一次聚會對話有點陳舊時提出。
無論如何,這是所有病毒如何工作的基本機(jī)制。但是,您可能已經(jīng)猜到了,不同的病毒有特定的方式潛入我們的細(xì)胞。它們可能因病毒而異。因此,我們將在下幾段中看到有關(guān)流感如何運(yùn)作的細(xì)節(jié)。
流感如何起作用?
您可能在新聞中聽說過H3N2或H1N1流感病毒。但是,如果您不是生物學(xué)家,您可能想知道這些字母和數(shù)字的含義。好吧,H代表血凝素,N代表神經(jīng)氨酸酶。H和N都是蛋白質(zhì),它們都有自己的用途。
H和N表面蛋白-流感生命周期的重要組成部分
H和N蛋白位于病毒表面,在流感的生命周期中起著至關(guān)重要的作用。它們有助于宿主細(xì)胞(血凝素)的滲透以及隨后病毒(神經(jīng)氨酸酶)在宿主細(xì)胞中的復(fù)制。
現(xiàn)在,這兩種蛋白質(zhì)的結(jié)構(gòu)可能有所不同,因此它們的不同版本可以用數(shù)字標(biāo)識。H3N2是一個例子。它包含H蛋白的第三種變體和N蛋白的第二種變體。實際上,H3N2和H1N1是感染人類的兩種最常見的流感病毒亞型。因此,讓我們看一下它們的流行名稱和特征。
香港流感
H3N2,也稱為香港流感,于1968年引起大流行,在全球造成超過100萬人死亡。盡管不像H1N1病毒那樣致命,但它具有極強(qiáng)的傳染性,并從亞洲開始,然后通過從越南返回的軍隊到達(dá)美國,迅速在人群中傳播。到1969年底,該病毒也已傳播到非洲和南美的部分地區(qū)。
西班牙流感
H1N1病毒造成了2009年的豬流感大流行,以及1918年毀滅性的西班牙流感。造成西班牙流感的特殊H1N1毒株具有極高的致死性,導(dǎo)致全球超過3000萬人死亡。然而,高死亡率的原因仍然是個謎。雖然一些科學(xué)家建議涉及這種病毒的異常侵襲形式,但另一些科學(xué)家則聲稱感染周圍的情況:第一次世界大戰(zhàn)期間營地過于擁擠和缺乏無菌環(huán)境是造成高死亡人數(shù)的原因。
您可能在想:“如果這種病毒如此危險或具有致命性,我們?nèi)绾伪Wo(hù)自己免受病毒侵害?答案是:流感疫苗,通常稱為病毒疫苗。所以…
什么是疫苗及其作用?
第一種疫苗
愛德華·詹納(EdwardJenner)于1796年首次引入了成功的疫苗,它是針對天花病毒的。他觀察到以前患有另一種疾病(牛痘)的人沒有染上天花。因此,如果人們首先感染了牛痘病毒,他們就會對更具致命性的天花產(chǎn)生抵抗力。他的觀察幫助創(chuàng)建了第一個成功的疫苗。結(jié)果,天花病毒此后在世界范圍內(nèi)被根除。
如今,我們有不同類型的疫苗。它們旨在幫助人體的免疫系統(tǒng)識別并防止病毒復(fù)制并引起感染。該過程涉及使用某種形式的弱化病毒,免疫系統(tǒng)可以訓(xùn)練這種弱化病毒進(jìn)行識別。然后,它可以為其創(chuàng)建特定抗體并將其滅活。
病毒疫苗:它們包含什么病毒疫苗由弱毒的H1N1和H3N2毒株組成。當(dāng)這些物質(zhì)出現(xiàn)時,我們的生物體就可以開始產(chǎn)生針對病毒H1N1和H3N2細(xì)胞的特異性抗體。然后,當(dāng)真正的病毒進(jìn)入系統(tǒng)時,我們的免疫系統(tǒng)便準(zhǔn)備就緒并可以使其失活。
現(xiàn)在我們已經(jīng)討論了病毒疫苗及其包含的內(nèi)容,讓我們看看誰負(fù)責(zé)疫苗的創(chuàng)建。
病毒疫苗:生產(chǎn),選擇
世衛(wèi)組織決定包括哪些病毒疫苗。而且,不,這并不是要提問或作為醫(yī)生參考,它只是世界衛(wèi)生組織(WHO)的縮寫,而且正好是由人們來決定每年將包含哪些病毒疫苗。
但是為什么需要改變呢?
年度病毒疫苗的原因:抗原性漂移和轉(zhuǎn)移
為了回答這個問題,我們首先需要解釋病毒進(jìn)化的兩個主要機(jī)制:抗原漂移和抗原轉(zhuǎn)移。
抗原漂移
想象一下,有一群人,被困在海中的木筏上。隨著時間的流逝,木排上的人們會慢慢改變?nèi)菝玻舫龊殻^發(fā)變長,曬黑。本質(zhì)上,他們?nèi)匀皇峭粋€人,但略有變化。這就是抗原漂移的意思,隨著時間的推移緩慢變化。
抗原轉(zhuǎn)移
現(xiàn)在,如果那些人混合他們的基因組(沒有一個孩子這么稱呼)并創(chuàng)造出一個后代,也就是一個孩子,它將包含他們兩個特征的混合物。這就是抗原轉(zhuǎn)移或重排的意思:遺傳物質(zhì)的交換和新生物的產(chǎn)生(如此巨大的變化)。在我們的案例中,這是一種新的流感亞型,例如我們之前提到的H3N1或H1N1。
這就回答了我們有關(guān)疫苗生產(chǎn)及其每年更換原因的問題。流感快速變化,變異和轉(zhuǎn)化。因此,很難找到一種可以對抗所有可能傳播的流感病毒類型的疫苗。
所以,當(dāng)科學(xué)家們決定如何制定疫苗,他們需要選擇哪株病毒,以使其最有效的包含。后者取決于疫苗與流感病毒的相似程度,流感病毒將在即將來臨的流感季節(jié)占主導(dǎo)地位。
預(yù)測流感傳播–大數(shù)據(jù)分析
如何預(yù)測即將到來的流感病毒類型?
這就是大數(shù)據(jù)分析發(fā)揮作用的地方。基于有關(guān)以前和當(dāng)前病毒傳播和變體的現(xiàn)有數(shù)據(jù),科學(xué)家嘗試使用機(jī)器學(xué)習(xí)算法對病毒的未來行為進(jìn)行建模和預(yù)測。
為此,他們首先需要一種適當(dāng)?shù)姆绞絹硖幚碛嘘P(guān)病毒或更確切地說是其基因組的信息。這是通過分析遺傳數(shù)據(jù)來完成的。但是到底什么是遺傳數(shù)據(jù)?
什么是基因組和基因數(shù)據(jù)?
遺傳數(shù)據(jù)包括生物體或其部分的基因組。它通常由DNA組成,以字符串形式表示。就流感而言,它包含RNA,RNA是某些病毒的遺傳物質(zhì)。
有了數(shù)據(jù)后,就該考慮如何理解這些數(shù)據(jù)了,這意味著我們首先需要一種可視化它的方法。
有很多選擇。但是,我們將特別關(guān)注一種主要的系統(tǒng)發(fā)育樹。
可視化技術(shù):系統(tǒng)發(fā)育樹
系統(tǒng)發(fā)育樹,也稱為進(jìn)化樹,根據(jù)其遺傳學(xué)來表示不同物種的接近程度。基本上,它們是顯示物種之間進(jìn)化關(guān)系的圖。在流行性感冒的情況下,此類樹木可用于可視化病毒的不同品系。
預(yù)測模型
現(xiàn)在是時候?qū)⑺羞@些放在一起并到達(dá)最終點了。即,使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行預(yù)測。
想象一下,您已經(jīng)以流感基因組或抗體的形式獲得了生物學(xué)數(shù)據(jù),并已使用樹木將其表示出來。使用從樹中獲取的信息,您可以采用不同的機(jī)器學(xué)習(xí)技術(shù)來模擬流感病毒的未來行為或傳播。
這些包括使用非負(fù)最小二乘法,構(gòu)造最大似然樹或使用評分方法。后者的例子包括構(gòu)建相似性類別和替代矩陣,以解釋病毒的抗原差異。在接下來的段落中,我們將概述幾種不同的技術(shù)。
非負(fù)最小二乘
它使用非負(fù)最小二乘優(yōu)化,該優(yōu)化可測量系統(tǒng)樹的分支之間的距離。他們使用雙向加權(quán)系統(tǒng)發(fā)育樹,并確定H蛋白表面編碼變化的集合。然后,該模型可以識別不同流感病毒株的抗原影響。
通過最大可能性或PAML進(jìn)行系統(tǒng)發(fā)育分析
進(jìn)行系統(tǒng)發(fā)育分析的另一種方法是使用PAML軟件包,該軟件包包含使用最大似然(ML)進(jìn)行遺傳數(shù)據(jù)系統(tǒng)發(fā)育分析的程序。這樣做的方法是采用一組樹并在不同模型下評估它們的對數(shù)似然值。這些模型估計一些參數(shù),同時允許其他參數(shù)變化。這樣,他們可以將多種基因類型整合到流感病毒株及其表面H蛋白中。
基于樹和替換模型的比較
值得一提的第三種方法是……嗯,實際上有兩種不同的方法:一種基于樹的模型和一種替換模型,以及兩者之間的比較。感覺就像我們在騙你,但我們保證特別要談?wù)勥@兩個。
預(yù)測流感病毒株的最后一種方法。它包括一個基于樹的模型,該模型具有一個測試和一個參考流感病毒株,并創(chuàng)建加權(quán)的系統(tǒng)發(fā)育樹。替換模型使用與參考病毒和測試病毒之間的氨基酸替換相關(guān)的貢獻(xiàn)之和。根據(jù)2002年至2015年收集的數(shù)據(jù),基于樹的模型和替換模型在預(yù)測準(zhǔn)確性方面的表現(xiàn)相似。
選擇“最佳”方法(在大數(shù)據(jù)分析中)
我們確實說過最后兩個模型是有特定目的的。這是為了說明大數(shù)據(jù)分析中一個非常普遍的問題:機(jī)器學(xué)習(xí)提供了各種各樣的工具,使我們能夠分析數(shù)據(jù)并建立預(yù)測模型。在某些情況下,尤其是如果您是該領(lǐng)域的新手,大數(shù)據(jù)分析在病毒疫苗研究中的應(yīng)用https://www.aaa-cg.com.cn/data/2270.html這可能會變得勢不可擋。我們看到兩種不同的技術(shù)在相同問題上產(chǎn)生相似的結(jié)果。實際上通常是這樣:兩種或多種算法在給定的數(shù)據(jù)集上表現(xiàn)相似。然后,“正確”算法的選擇可以取決于我們給出的任務(wù)的具體情況,也可以由其他因素(速度,可伸縮性,模型的可解釋性,清單等)確定。
這也被稱為“無免費(fèi)午餐定理”,這是機(jī)器學(xué)習(xí)中的一個常見問題,表明沒有一種模型可以解決所有問題。大數(shù)據(jù)分析家工作的重要部分是了解每種方法的優(yōu)點和缺點,并始終選擇合適的工具來解決當(dāng)前的問題。
基因組,大數(shù)據(jù)分析的新興領(lǐng)域
這幾乎使本文結(jié)束。
那真是過山車,對嗎?我們從了解流感以及病毒如何工作開始,并回顧了第一種疫苗和最大的流感大流行的歷史。什么時候我們談到抗原的變化和漂移?特別是解釋這些,我們玩得很開心。
我們還討論了不同類型的生物數(shù)據(jù)及其可視化。最后,我們學(xué)習(xí)了如何使用不同的機(jī)器學(xué)習(xí)技術(shù)進(jìn)行預(yù)測。
總之,大數(shù)據(jù)分析不僅僅是IT領(lǐng)域或大型公司使用的工具。實際上,它在(生命)科學(xué)中起著越來越重要的作用。而且,醫(yī)學(xué)和生物學(xué)應(yīng)用正變得越來越重要和廣泛。從而允許用戶在各自的云平臺上存儲和分析自己的基因組。
而且,如果他們這樣做了,那么可以肯定地說,使用機(jī)器學(xué)習(xí)進(jìn)行基因組及其分析值得研究。事物運(yùn)行的方式,基因組及其分析可能很快會成為我們?nèi)粘I畹囊徊糠帧R虼耍覀冋J(rèn)為熟悉該領(lǐng)域非常有道理。而且,在介紹完我們剛剛給您的內(nèi)容之后,我們確信您會做到這一點。
https://www.toutiao.com/i6820236134396723719/