專利名稱::通過(guò)模型預(yù)測(cè)流感抗原的方法及應(yīng)用的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種流感抗原預(yù)測(cè)技術(shù),尤其涉及一種通過(guò)模型預(yù)測(cè)流感抗原的方法及應(yīng)用。
背景技術(shù):
:流感病毒是一種全球流行的病毒,它每年感染300500萬(wàn)人,其中有2550萬(wàn)人死亡,對(duì)人類社會(huì)造成巨大危害。流感病毒分A、B、C三個(gè)型,A型和B型對(duì)人威脅較大,其中A型流感抗原變異頻繁,對(duì)人類威脅最大。自1968年進(jìn)入人群后,H3N2亞型流感病毒在人群里占主導(dǎo)地位。H3N2亞型流感病毒基因組包含8個(gè)片段,編碼11個(gè)蛋白,其中HA跟NA是主要的表面抗原蛋白。相對(duì)于其它基因,HA變異最快,使得抗原不斷發(fā)生變化。注射疫苗是目前最有效防治流感的辦法之一,由于流感病毒不斷發(fā)生改變,所以必須不斷更新疫苗成分。目前,世界衛(wèi)生組織(WHO)通過(guò)與全球四個(gè)流感參比和研究合作中心及不同國(guó)家/地區(qū)的流感監(jiān)測(cè)中心緊密合作,實(shí)時(shí)監(jiān)測(cè)流感的抗原變化情況,并在每年二月(針對(duì)北半球)以及九月(針對(duì)南半球)通過(guò)評(píng)估全球流感流行情況推薦下一個(gè)流行季使用的疫苗株,指導(dǎo)疫苗的生產(chǎn)。但受人H3N2流感病毒的全球傳播規(guī)律影響,疫苗株在不同地區(qū)的效果存在差異。對(duì)于源頭地區(qū),例如東亞、東南亞地區(qū),因?yàn)樾碌目乖瓋?yōu)勢(shì)株在這個(gè)地區(qū)先出現(xiàn)并流行,使得現(xiàn)行推薦疫苗株對(duì)這個(gè)地區(qū)的保護(hù)性很差。最理想的情況是各個(gè)地區(qū)進(jìn)行抗原監(jiān)測(cè),針對(duì)不同地區(qū)的差別分別推薦疫苗株。目前,使用HI(血凝抑制反應(yīng))的方法對(duì)抗原進(jìn)行檢測(cè),但這種方法費(fèi)時(shí)、費(fèi)力,而且有時(shí)候不夠靈敏。H3N2病毒無(wú)休止地對(duì)人體免疫系統(tǒng)的逃避,使得其進(jìn)化路徑沿著一個(gè)主干行進(jìn),在進(jìn)化樹(shù)上表現(xiàn)為一條主干的進(jìn)化模式,而其主干上的位點(diǎn)變化對(duì)其抗原性的進(jìn)化起主要作用。其中,不同位點(diǎn)對(duì)抗原改變的貢獻(xiàn)是不盡相同的,有的位點(diǎn)貢獻(xiàn)大,而有的位點(diǎn)貢獻(xiàn)相對(duì)小,但更多時(shí)候,抗原的改變是多個(gè)位點(diǎn)協(xié)同變化的結(jié)果。H3N2病毒HA上存在五個(gè)抗原表位,是免疫系統(tǒng)抗體的主要識(shí)別區(qū)域,這些區(qū)域上的位點(diǎn)變化對(duì)于流感病毒抗原改變有顯著的貢獻(xiàn)。現(xiàn)有技術(shù)中,先找出跟抗原相關(guān)的位點(diǎn),即所謂正選擇位點(diǎn),然后建立不同的位點(diǎn)模型來(lái)模擬和預(yù)測(cè)抗原變異。這些方法都有一定的預(yù)測(cè)能力,或多或少抓住了人H3N2流感病毒進(jìn)化的一些規(guī)律。據(jù)目前的研究表明,影響抗原的所謂正選擇位點(diǎn)是隨時(shí)間變化的,即使是同一個(gè)位點(diǎn),其結(jié)構(gòu)背景不同,其變化的效果可能完全不一樣。因此,這些基于位點(diǎn)的預(yù)測(cè)方法的缺點(diǎn)很明顯對(duì)應(yīng)時(shí)間段得到的規(guī)律只適用于對(duì)應(yīng)時(shí)間段的數(shù)據(jù),用到其他時(shí)間段上效果就會(huì)很差。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種簡(jiǎn)單、方便、靈敏度高的通過(guò)模型預(yù)測(cè)流感抗原的方法及應(yīng)用。本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的本發(fā)明通過(guò)模型預(yù)測(cè)流感抗原的方法,包括通過(guò)以下表1和式(1)構(gòu)建的模型預(yù)測(cè)病毒對(duì)之間抗原相似還是抗原變異抽提影響流感抗原的12個(gè)特征五個(gè)抗原決定簇氨基酸的突變個(gè)數(shù)、HA蛋白氨基酸的五個(gè)理化特性、影響受體結(jié)合因素、糖基化位點(diǎn)改變的個(gè)數(shù),所述HA蛋白氨基酸的五個(gè)理化特性包括疏水性、體積變化、帶電性、極性、可積表面積;對(duì)3681對(duì)已知抗原相似的病毒對(duì)和1720對(duì)抗原變異的病毒對(duì)的上述12個(gè)特征進(jìn)行統(tǒng)計(jì),得到表1:表1中的數(shù)據(jù)分別表示抗原相似的病毒對(duì)的特征改變大和小的數(shù)量及抗原變異的病毒對(duì)的特征改變大和小的數(shù)量;式中Poddsrati。表示優(yōu)勝率,P。ddsrati0<1時(shí)被預(yù)測(cè)的病毒對(duì)抗原相似,P。ddsrati0>1時(shí)被預(yù)測(cè)的病毒對(duì)抗原變異;Xj,-表示待預(yù)測(cè)的病毒對(duì)的第j個(gè)特征改變情況,Xj,new以及P。ddsrati。通過(guò)以下方法計(jì)算首先,分別對(duì)所述影響流感抗原的12個(gè)特征進(jìn)行量化,并分別取以下閾值0、2、0、1、0、1·82,54.667,2.493,34.867,0.098,113.607,1;然后,對(duì)被預(yù)測(cè)病毒對(duì)的12個(gè)特征分別進(jìn)行比較,當(dāng)二者的特征差異小于其對(duì)應(yīng)的閾值時(shí),對(duì)應(yīng)表1第j個(gè)特征在抗原相似的病毒對(duì)中特征改變小的數(shù)量,對(duì)應(yīng)表ι第j個(gè)特征在抗原變異的病毒對(duì)中特征改變小的數(shù)量;當(dāng)二者的差異大于或等于其對(duì)應(yīng)的閾值時(shí),對(duì)應(yīng)表1第j個(gè)特征在抗原相似的病毒對(duì)中特征改變大的數(shù)量,對(duì)應(yīng)表ι第j個(gè)特征在抗原變異的病毒對(duì)中特征改變大的數(shù)量。本發(fā)明的上述通過(guò)模型預(yù)測(cè)流感抗原的方法的應(yīng)用,用于構(gòu)建抗原關(guān)系網(wǎng)絡(luò)通過(guò)預(yù)測(cè)病毒對(duì)之間抗原相似還是抗原變異的關(guān)系,建立所有病毒之間的抗原關(guān)系網(wǎng)絡(luò),把每個(gè)病毒作為節(jié)點(diǎn),把抗原相似的病毒之間給一個(gè)連線,構(gòu)成所述抗原關(guān)系網(wǎng)絡(luò)。由上述本發(fā)明提供的技術(shù)方案可以看出,本發(fā)明所述的通過(guò)模型預(yù)測(cè)流感抗原的方法及應(yīng)用,通過(guò)抽提一些反映抗體抗原相互作用破壞程度的特性,建立一個(gè)抗原關(guān)系的預(yù)測(cè)模型,單純從序列出發(fā),就能給出病毒之間的抗原關(guān)系,簡(jiǎn)單、方便、靈敏度高。通過(guò)網(wǎng)絡(luò)的方式能夠形象的展示抗原進(jìn)化的過(guò)程。圖1為本發(fā)明中模型構(gòu)建的技術(shù)路線示意圖;圖2為本發(fā)明中抗原關(guān)系預(yù)測(cè)結(jié)構(gòu)模型示意圖。具體實(shí)施例方式本發(fā)明的通過(guò)模型預(yù)測(cè)流感抗原的方法,其較佳的具體實(shí)施方式是,包括通過(guò)以下表1和式(1)構(gòu)建的模型預(yù)測(cè)病毒對(duì)之間抗原相似還是抗原變異抽提影響流感抗原的12個(gè)特征五個(gè)抗原決定簇氨基酸的突變個(gè)數(shù)、HA蛋白氨基酸的五個(gè)理化特性、影響受體結(jié)合因素、糖基化位點(diǎn)改變的個(gè)數(shù),所述HA蛋白氨基酸的五個(gè)理化特性包括疏水性、體積變化、帶電性、極性、可積表面積;對(duì)3681對(duì)已知抗原相似的病毒對(duì)和1720對(duì)抗原變異的病毒對(duì)的上述12個(gè)特征進(jìn)行統(tǒng)計(jì),得到表132]表1中的數(shù)據(jù)分別表示抗原相似的病毒對(duì)的特征改變大和小的數(shù)量及抗原變異的病毒對(duì)的特征改變大和小的數(shù)量;Poddsrati。表示優(yōu)勝率,P。ddsrati0<1時(shí)被預(yù)測(cè)的病毒對(duì)抗原相似,P。ddsrati0>1時(shí)被預(yù)測(cè)的病毒對(duì)抗原變異;Xj,new表示待預(yù)測(cè)的病毒對(duì)的第j個(gè)特征改變情況,Xj,new以及P。ddsrati。通過(guò)以下方法計(jì)算首先,分別對(duì)所述影響流感抗原的12個(gè)特征進(jìn)行量化,并分別取以下閾值0、2、0、1、0、1·82,54.667,2.493,34.867,0.098,113.607,1;然后,對(duì)被預(yù)測(cè)病毒對(duì)的12個(gè)特征分別進(jìn)行比較,當(dāng)二者的特征差異小于其對(duì)應(yīng)的閾值時(shí),Xj,new=0,對(duì)應(yīng)表1第j個(gè)特征在抗原相似的病毒對(duì)中特征改變小的數(shù)量,>1=0對(duì)應(yīng)表ι第j個(gè)特征在抗原變異的病毒對(duì)中特征改變小的數(shù)量;當(dāng)二者的差異大于或等于其對(duì)應(yīng)的閾值時(shí),Xj,new=1,對(duì)應(yīng)表1第j個(gè)特征在抗原相似的病毒對(duì)中特征改變大的數(shù)量,對(duì)應(yīng)表ι第j個(gè)特征在抗原變異的病毒對(duì)中特征改變大的數(shù)量。^=I所述的3681對(duì)已知的抗原相似的病毒對(duì)和1720對(duì)抗原變異的病毒對(duì)可以通過(guò)以下方法得到(也可以通過(guò)其它的方法得到)已知Smith等人把1968年到2003年間的253株人H3N2流感病毒劃分成11個(gè)抗原類;對(duì)于這253株病毒,如果兩個(gè)病毒處于同一抗原類,就認(rèn)為它們是抗原相似株;如果這兩個(gè)病毒處于不同的抗原類,就認(rèn)為他們是抗原變異株,得到31878對(duì)兩兩病毒間的抗原關(guān)系;選取兩兩病毒HAl蛋白序列差異數(shù)介于1-9的病毒對(duì)。所述的閾值通過(guò)對(duì)所述的3681對(duì)已知的抗原相似的病毒對(duì)和1720對(duì)抗原變異的病毒對(duì)進(jìn)行統(tǒng)計(jì)得到。本發(fā)明的上述的通過(guò)模型預(yù)測(cè)流感抗原的方法的應(yīng)用,用于構(gòu)建抗原關(guān)系網(wǎng)絡(luò)通過(guò)預(yù)測(cè)病毒對(duì)之間抗原相似還是抗原變異的關(guān)系,建立所有病毒之間的抗原關(guān)系網(wǎng)絡(luò),把每個(gè)病毒作為節(jié)點(diǎn),把抗原相似的病毒之間給一個(gè)連線,構(gòu)成所述抗原關(guān)系網(wǎng)絡(luò)。還包括對(duì)所述抗原關(guān)系網(wǎng)絡(luò)進(jìn)行聚類。所述抗原關(guān)系網(wǎng)絡(luò)的聚類包括抽提出所述抗原關(guān)系網(wǎng)絡(luò)中的局部連接密度比較大的區(qū)域,作為抗原相似簇;所述抗原關(guān)系網(wǎng)絡(luò)的聚類可以通過(guò)MCL方法(TheMarkovClusterAlgorithm,馬爾可夫聚類算法),也可以采用其它的方法;具體可以用于揭示流感傳播規(guī)律。還可以用于按以下原則進(jìn)行疫苗候選株的篩選當(dāng)有新的抗原相似簇出現(xiàn),并且新的抗原相似簇所占比例不斷增加,則選擇該抗原相似簇作為疫苗株候選;如果有多個(gè)新抗原相似簇同時(shí)滿足上面條件,則選擇變化更顯著的抗原相似簇作為疫苗候選株。本發(fā)明中的模型是通過(guò)以下方法得到首先,構(gòu)建訓(xùn)練數(shù)據(jù)集Smith等人,把1968年到2003年間的253株人H3N2流感病毒劃分成11個(gè)抗原類。通過(guò)如下原則構(gòu)建訓(xùn)練模型需要的訓(xùn)練數(shù)據(jù)集。對(duì)于這253株病毒,如果兩個(gè)病毒處于同一抗原類,就認(rèn)為它們是抗原相似株;而如果這兩個(gè)病毒處于不同的抗原類,就認(rèn)為他們是抗原變異株,這樣可以得到31878對(duì)兩兩病毒間的抗原關(guān)系。但這其中包含太多抗原變異病毒對(duì)的數(shù)據(jù),會(huì)影響模型構(gòu)建,因此選取兩兩病毒HAl蛋白序列差異數(shù)介于1-9的病毒對(duì)構(gòu)建訓(xùn)練數(shù)據(jù)集,包括3681對(duì)抗原相似病毒對(duì),以及1720對(duì)抗原變異病毒對(duì)。然后,進(jìn)行特征選擇基于流感病毒抗原改變的結(jié)構(gòu)本質(zhì)抽提了12個(gè)特征用于構(gòu)建抗原關(guān)系預(yù)測(cè)模型。這些特征包括每個(gè)抗原決定簇的氨基酸突變個(gè)數(shù)(共五個(gè)抗原決定簇),五種氨基酸理化特性(疏水性、體積、帶電性、極性、可積表面積),對(duì)受體結(jié)合影響,還有就是糖基化位點(diǎn)的改變。之后,對(duì)特征量化,并對(duì)特征離散給定一個(gè)特定的病毒對(duì),就可以通過(guò)比較它們的HAl氨基酸序列的差異,計(jì)算出上面提到的12個(gè)的特性的量化值。本發(fā)明中的模型最終只給出給定的兩個(gè)病毒抗原是變了還是沒(méi)變(及兩個(gè)狀態(tài)0/1,分別代表抗原相似以及抗原變異),所有特征也離散成改變大小兩個(gè)狀態(tài)(0/1,分別代表特性改變不能導(dǎo)致抗原改變以及能夠?qū)е驴乖淖?。對(duì)于每一個(gè)特征,離散的原理就是找到一個(gè)閾值,使得以這個(gè)閾值為界對(duì)訓(xùn)練數(shù)據(jù)集中的病毒抗原關(guān)系對(duì)進(jìn)行劃分,劃分的結(jié)果跟真實(shí)的抗原關(guān)系匹配最好。通過(guò)訓(xùn)練數(shù)據(jù)集學(xué)到的1-12特征的離散化閾值0、2、0、1、0、1·82,54.667,2.493,34.867,0.098,113.607、1。最后,進(jìn)行模型構(gòu)建通過(guò)構(gòu)建12個(gè)特征的樸素貝葉斯模型(NaiveBayesModel)來(lái)預(yù)測(cè)給定病毒對(duì)的抗原關(guān)系。假定選取的特征滿足伯努利模型(BernoulliModel),先檢驗(yàn)分布滿足正態(tài)分布,由貝葉斯理論,可以得到給定病毒對(duì)的抗原關(guān)系P。ddsrati。(抗原改變比上抗原不改變的比率)其中Ji表示訓(xùn)練數(shù)據(jù)集中第i對(duì)病毒對(duì)的抗原關(guān)系(0/1,分別表示抗原相似跟抗原變異)。Xu表示訓(xùn)練數(shù)據(jù)集中第i對(duì)病毒第j個(gè)特性離散值(0/1,分別代表特性改變不能導(dǎo)致抗原改變以及能夠?qū)е驴乖淖?。m表示我們抽提得到的12個(gè)特征(m=12)。計(jì)算針對(duì)整個(gè)訓(xùn)練數(shù)據(jù)進(jìn)行,其實(shí)訓(xùn)練數(shù)據(jù)集給出的就是特性改變跟抗原改變的關(guān)系,也即訓(xùn)練集抽提如表1所示。可以得到態(tài),進(jìn)而得到式⑴;給定一對(duì)病毒,通過(guò)12個(gè)特征,如果P。ddsrati0>1,抗原變異否則抗原相似。具體計(jì)算實(shí)例給定一對(duì)病毒A/Fujian/411/2002跟A/HongKong/1186/2003;其HAl的氨基酸差異包括124(S->N),138(A->S),193(S->N),226(V->I),227(S->P),根據(jù)每個(gè)特征的閾值,可以得到每個(gè)特征的改變大小情況,即Xnev=(X1,new,…,X12jnew)為(1,0,0,0,0,0,0,0,0,0,1,0)然后根據(jù)表1和式(1)計(jì)算得到J720156792014649913518111721420415561708、=0.00042565940779因?yàn)镻。ddsrati0<1,因此我們預(yù)測(cè)A/Fujian/411/2002根A/HongKong/1186/2003抗原相似??乖淖兓举|(zhì)上因?yàn)槲稽c(diǎn)變化導(dǎo)致抗體抗原的相互作用發(fā)生變化,而單純基于具體位點(diǎn)的模型顯然不能反映這個(gè)本質(zhì)。本發(fā)明從結(jié)構(gòu)角度考慮,抽提一些反映抗體抗原相互作用破壞程度的特性,建立一個(gè)抗原關(guān)系的預(yù)測(cè)模型,單純從序列出發(fā),就能給出病毒之間的抗原關(guān)系。通過(guò)網(wǎng)絡(luò)的方式能夠形象的展示抗原進(jìn)化的過(guò)程。通過(guò)預(yù)測(cè)抗原關(guān)系以及相關(guān)分析,可以得到中國(guó)大陸人H3N2流感病毒進(jìn)化的規(guī)律,揭示優(yōu)勢(shì)抗原由南方到北方的傳播規(guī)律。還可以更加細(xì)致分析亞洲不同地區(qū)流感的傳播規(guī)律,揭示出亞洲熱帶、亞熱帶地區(qū)的流感傳播的源頭地位。能夠有效監(jiān)測(cè)抗原狀態(tài),進(jìn)行疫苗候選株篩選。如應(yīng)用到中國(guó)大陸地區(qū),篩選出的疫苗候選株能夠有效保護(hù)這個(gè)地區(qū)人群。而考慮到人H3N2流感病毒的全球傳播趨勢(shì),這種基于起源地的抗原監(jiān)測(cè)以及疫苗候選株篩選技術(shù)對(duì)流感防治意義重大。下面對(duì)本發(fā)明的原理和模型構(gòu)建的過(guò)程進(jìn)行詳細(xì)的論述具體如圖1所示,包括1、首先以Smith數(shù)據(jù)建立訓(xùn)練數(shù)據(jù)集,下載序列并抽提特征及量化,將特征離散化,建立抗原預(yù)測(cè)模型,驗(yàn)證模型,構(gòu)建抗原關(guān)系網(wǎng)絡(luò),最后進(jìn)行網(wǎng)絡(luò)聚類。2、序列數(shù)據(jù)從GenBank下載所有人H3N2流感病毒的HA蛋白質(zhì)序列,截取其HAl區(qū)域,除去較短病毒序列(<IOOaa)以及一些特殊序列(相對(duì)于所有病毒變化比較顯著以及可能年代上標(biāo)注錯(cuò)誤),共得到7297條病毒蛋白質(zhì)序列,其中4711條有月份信息,這些病毒序列按照其采集地劃分到不同的區(qū)域。另外,基于國(guó)家流感中心的流感監(jiān)測(cè)網(wǎng)絡(luò),收集并測(cè)序中國(guó)大陸范圍的932條病毒,其中506條有月份信息,加上從公共數(shù)據(jù)庫(kù)中收集的中國(guó)大陸地區(qū)的序列數(shù)據(jù),共得到中國(guó)大陸地區(qū)病毒序列1339條,其中705條有月份信息。另外根據(jù)病毒分離地點(diǎn)的不同對(duì)病毒的爆發(fā)區(qū)域進(jìn)行劃分,以秦嶺淮河一線把中國(guó)劃分成南北方。3、訓(xùn)練數(shù)據(jù)集Smith等,對(duì)1968年到2003年間的253株人H3N2流感病毒進(jìn)行抗原測(cè)定并最終劃分成11個(gè)抗原類,代表這段時(shí)間內(nèi)全世界人H3N2流感病毒進(jìn)化過(guò)程。按照如下的原則從文中抽提訓(xùn)練數(shù)據(jù)集如果兩個(gè)病毒處于同一抗原類,就認(rèn)為它們抗原相似;而如果這兩個(gè)病毒處于不同的抗原類,就認(rèn)為他們抗原改變。同時(shí),考慮到大于九個(gè)位點(diǎn)的氨基酸突變就會(huì)產(chǎn)生抗原改變,數(shù)據(jù)集中包含太多的這類數(shù)據(jù)會(huì)對(duì)模型造成影響,因此只保留小于等于九個(gè)位點(diǎn)突變的數(shù)據(jù)。最終從這套數(shù)據(jù)中抽提得到的訓(xùn)練數(shù)據(jù)集包含多對(duì)病毒的抗原關(guān)系,通過(guò)比較對(duì)應(yīng)病毒對(duì)的HAl序列得到。4、特征抽提及其量化抗原的改變本質(zhì)上是抗體抗原相互作用的變化,因此按照經(jīng)驗(yàn)以及數(shù)據(jù)分析抽提得到四組12個(gè)特性來(lái)反映抗原關(guān)系的改變第一組特性包括五個(gè)特性,它們分別是流感HA上五個(gè)抗原決定簇的位點(diǎn)改變個(gè)數(shù)。這些特性廣泛被人們所接受,主要反映了抗體結(jié)合區(qū)域的位點(diǎn)變化對(duì)抗原的影響;第二組特性也包含五個(gè)特性,這些特性主要從氨基酸變化對(duì)物理學(xué)直接相互作用破壞程度上來(lái)考慮,它們分別是疏水性、體積、帶電性、極性和可積表面積;另外,受體結(jié)合區(qū)域及其周圍區(qū)域位點(diǎn)的變化,將影響抗原的變化。這主要是兩方面的疊加效應(yīng)起作用首先,受體結(jié)合區(qū)域及其周圍區(qū)域的位點(diǎn)變化,將導(dǎo)致原來(lái)能結(jié)合到這個(gè)區(qū)域的抗體不能再結(jié)合,從而產(chǎn)生抗原變化;另外,抗體不能結(jié)合也為病毒更有效的結(jié)合宿主細(xì)胞表面的受體,為病毒的傳播提供有利條件,這種適應(yīng)性的優(yōu)勢(shì)將使對(duì)應(yīng)抗原變異株更容易成為抗原優(yōu)勢(shì)株?;谝陨戏治觯延绊懯荏w結(jié)合作為第三組特性;糖基化位點(diǎn)的變化也將影響抗體與流感HA的相互作用,因而也將影響抗原的改變,把其作為第四組特性。為了表征每個(gè)特性對(duì)抗原影響的程度,首先對(duì)它們進(jìn)行量化第一組的五個(gè)特性的變化直接用對(duì)應(yīng)抗原決定簇氨基酸改變個(gè)數(shù)來(lái)表示;第二組中不同氨基酸物理化學(xué)特性的變化,可以從AAindex(氨基酸指數(shù))數(shù)據(jù)庫(kù)中抽提。AAindex是一個(gè)代表各種理化和氨基酸及氨基酸對(duì)生化特性的數(shù)值指標(biāo)數(shù)據(jù)庫(kù),其中需要的特性分別是代表疏水性的FASG890101、代表體積變化的GRAR740103、代表帶電性的ZIMJ680104、代表極性的CHAM820101以及代表可積表面變化的JANJ780101;用距離受體結(jié)合區(qū)域的遠(yuǎn)近來(lái)度量第三組特性,但這要求首先要確定受體結(jié)合區(qū)域。應(yīng)該說(shuō),從不同位點(diǎn)到受體結(jié)合區(qū)域的距離這個(gè)角度來(lái)講,人H3N2流感病毒的HA的結(jié)構(gòu)變化不大,因此用早期的H3N2結(jié)構(gòu)(pdb1MQN)為模板來(lái)計(jì)算。受體結(jié)合區(qū)域由三個(gè)結(jié)構(gòu)元件組成135138的loop(環(huán))、190198的helix(螺旋)以及221228的loop。以這三個(gè)結(jié)構(gòu)元件出發(fā),結(jié)合模板結(jié)構(gòu),確定131138、155160、186196以及218228為受體結(jié)合區(qū)域。任意位點(diǎn)對(duì)受體結(jié)合的影響用這個(gè)位點(diǎn)到受體結(jié)合區(qū)域的最短距離來(lái)表示,但為了體現(xiàn)影響大小與距離大小的關(guān)系,用HA上所有位點(diǎn)距離受體結(jié)合區(qū)域的最遠(yuǎn)距離減去這個(gè)距離來(lái)表示,這樣距離受體結(jié)合區(qū)域越近,其影響受體結(jié)合的數(shù)值就越大。以上第二組以及第三組特性的計(jì)算取兩兩病毒序列位點(diǎn)變化所導(dǎo)致特性變化的最大的三個(gè)值的平均值,之所以這樣計(jì)算一定程度反映位點(diǎn)變化與抗原變化的一種關(guān)聯(lián),取平均值避免與第一組特性的重復(fù);最后一組特性直接用糖基化位點(diǎn)改變個(gè)數(shù)來(lái)計(jì)算,糖基化位點(diǎn)的預(yù)測(cè)用NetNGlyc程序?qū)崿F(xiàn),用0.5作為閥值。5、特征的離散化連續(xù)變量的過(guò)擬和是機(jī)器學(xué)習(xí)中經(jīng)常遇到的問(wèn)題,為了避免過(guò)擬和,這里對(duì)每個(gè)特性值進(jìn)行離散化。前面抽提的訓(xùn)練數(shù)據(jù)集,其抗原狀態(tài)已經(jīng)被離散化如果訓(xùn)練數(shù)據(jù)集中包含N對(duì)病毒,對(duì)于任意一對(duì)病毒i(i=1,...,N),其抗原關(guān)系用yi表示,如果抗原相似Yi=O,反之yi=1。對(duì)于每一個(gè)特性j,其量化、的離散化在這里就是找到一個(gè)合適的閥值,使得其對(duì)抗原關(guān)系的區(qū)分最好。如果用N1表示抗原發(fā)生改變的病毒對(duì)數(shù),用Ntl表示抗原未發(fā)生改變的病毒對(duì)數(shù),則NfN1=N。對(duì)于任意一個(gè)特性j,給定閥值c,定義對(duì)于特性j最好的閥值通過(guò)下面公式得到其中理論上,上面的操作是找出N個(gè)事例的2X2列聯(lián)表的最顯著卡方檢驗(yàn)結(jié)果。按照上面方法計(jì)算得到的閥值,每個(gè)特性將被離散化成0-1,分別表示特性改變沒(méi)有造成抗原改變以及造成抗原改變,用X表示。6、抗原預(yù)測(cè)貝葉斯模型如圖2所示,NaiiveBayesModel(貝葉斯模型)在統(tǒng)計(jì)學(xué)習(xí)中廣泛應(yīng)用,其基本假設(shè)是每個(gè)特性之間是獨(dú)立的。如果用Y表示抗原狀態(tài)(Y=0表示抗原相似,Y=1表示抗原變異,而用X1,...,XmOiI=12)表示每一個(gè)特性狀態(tài),應(yīng)用Bayes定理m定義抗原改變的概率比上抗原不改變的概率為優(yōu)勝率(oddsratio),它可以通過(guò)下面公式計(jì)算進(jìn)一步假設(shè)Y以及給定Y的每一個(gè)Xj滿足Bernoullimodels,比如XjIpoj,Y=0Bernoulli(p0J),XjIpij,Y=1Bernoulli(Plj),j=1,...,m,YIpyBernoulli(pu).如果認(rèn)為~,以及Pu的先驗(yàn)概率為均勻分布,定義訓(xùn)練數(shù)據(jù)集的抗原狀態(tài)矢量為y=(Y1,..·,yN)以及離散化后的特性值矩陣χ=(Xij),i=1,...,N;j=1,...m,給定訓(xùn)練數(shù)據(jù)集,Py,P0j以及Plj的后驗(yàn)概率可以很容易計(jì)算出來(lái)對(duì)于一個(gè)給定新的特性的觀測(cè)量Xmw=(Xljnew,...,Xm,n),可以得到而對(duì)于給定新的特性的觀測(cè)量,其預(yù)測(cè)的優(yōu)勝率(oddsratio)如下計(jì)算=如果優(yōu)勝率大于1,認(rèn)為抗原發(fā)生了改變,反之抗原沒(méi)有發(fā)生改變。7、模型驗(yàn)證為了得到上述的抗原關(guān)系預(yù)測(cè)模型對(duì)訓(xùn)練數(shù)據(jù)集本身的預(yù)測(cè)能力,對(duì)訓(xùn)練數(shù)據(jù)集作10-fold交叉驗(yàn)證。把訓(xùn)練數(shù)據(jù)集隨機(jī)分成十份,然后每次留出其中的一份作新的測(cè)試數(shù)據(jù)集,而其余的九份為新的訓(xùn)練數(shù)據(jù)集,這樣重復(fù)十次使得每一份都被作為測(cè)試數(shù)據(jù)集被預(yù)測(cè)一遍,得到預(yù)測(cè)準(zhǔn)確率。同時(shí),為了檢驗(yàn)上述的抗原關(guān)系預(yù)測(cè)模型是否反映抗原變化的本質(zhì)規(guī)律,進(jìn)行前瞻性測(cè)試。從Smith文中的數(shù)據(jù)出發(fā),按照年份信息把數(shù)據(jù)集分成不同時(shí)間段的數(shù)據(jù)集,分別用時(shí)間靠前的數(shù)據(jù)作訓(xùn)練數(shù)據(jù)集,而用時(shí)間靠后的數(shù)據(jù)作測(cè)試數(shù)據(jù)集。應(yīng)該注意,基于每一次用到的新的訓(xùn)練數(shù)據(jù)集,都要重新進(jìn)行特性的離散化,重新學(xué)習(xí)預(yù)測(cè)模型。人Η3Ν2流感病毒的進(jìn)化過(guò)程是一個(gè)新抗原替換舊抗原不斷反復(fù)的過(guò)程,本發(fā)明能夠預(yù)測(cè)兩兩病毒的抗原關(guān)系,因此可以建立所有病毒之間的抗原關(guān)系網(wǎng)絡(luò)。同時(shí),人Η3Ν2流感病毒的進(jìn)化表現(xiàn)為從抗原相似的病毒中通過(guò)不斷突變產(chǎn)生抗原變異株,基于此理解把每個(gè)病毒作為節(jié)點(diǎn),而把抗原相似(優(yōu)勝率oddsratio<=1)的病毒之間給一個(gè)連線,這樣就構(gòu)成一個(gè)抗原相關(guān)性網(wǎng)絡(luò)。因?yàn)檫@個(gè)抗原相關(guān)性網(wǎng)絡(luò)展示了人H3N2流感病毒通過(guò)不斷抗原積累變化的進(jìn)化過(guò)程,可以用這個(gè)網(wǎng)絡(luò)來(lái)形象的反映抗原進(jìn)化。用比較通用的Cytoscape來(lái)顯示所有網(wǎng)絡(luò),并用yFilesOrganicLayout來(lái)組織網(wǎng)絡(luò),這種顯示方式能最大程度把網(wǎng)絡(luò)的模塊化給展示出來(lái),反映出人H3N2流感病毒成簇進(jìn)化的特征。9、網(wǎng)絡(luò)聚類為了抽提出抗原關(guān)系網(wǎng)絡(luò)中的局部連接密度比較大的區(qū)域,也即認(rèn)為的抗原相似簇,需要對(duì)得到的抗原關(guān)系網(wǎng)絡(luò)進(jìn)行聚類。網(wǎng)絡(luò)聚類有很多種方法,但基于以下的考慮,選取MCL方法MCL方法對(duì)每個(gè)病毒都進(jìn)行分類,這符合任何病毒都可以劃分抗原狀態(tài)符合,雖然有一些病毒的抗原狀態(tài)可能跟其他抗原狀態(tài)有所區(qū)別,但這些抗原狀態(tài)不是憑空出現(xiàn),而是由其他一些主要抗原進(jìn)化而來(lái),從這個(gè)角度講應(yīng)該對(duì)每個(gè)病毒都給出抗原狀態(tài),這便于分析抗原進(jìn)化過(guò)程。MCL還能夠利用邊的權(quán)重,也就是可以利用病毒與病毒之間的抗原改變的優(yōu)勝率作為權(quán)重來(lái)對(duì)抗原進(jìn)行分類??乖倪M(jìn)化是一種跟分子進(jìn)化相比“更不連續(xù)”的過(guò)程,因此利用好邊的權(quán)重將對(duì)于有效劃分抗原類提供幫助。這樣,加上權(quán)重,對(duì)上面得到的抗原相似性網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)聚類,得到不同的網(wǎng)絡(luò)模塊。這些網(wǎng)絡(luò)模塊表現(xiàn)為抗原更相似,就把它們定義為不同抗原類。在分析人H3N2流感病毒整體上抗原進(jìn)化規(guī)律以及傳播規(guī)律時(shí),我們采用優(yōu)勝率的負(fù)對(duì)數(shù)作為權(quán)重來(lái)進(jìn)行網(wǎng)絡(luò)聚類得到抗原類;而在疫苗候選株篩選時(shí),因?yàn)樾枰櫩乖募?xì)致動(dòng)態(tài)變化,我們用優(yōu)勝率的倒數(shù)作為權(quán)重。本發(fā)明可以有以下兩方面的應(yīng)用一方面是,揭示流感傳播規(guī)律人H3N2流感病毒的進(jìn)化是新抗原替換舊抗原的過(guò)程,在傳播上表現(xiàn)為新抗原優(yōu)勢(shì)株由源頭向其他區(qū)域傳播的過(guò)程。能夠用抗原關(guān)系網(wǎng)絡(luò)來(lái)描述抗原的進(jìn)化過(guò)程,并能夠通過(guò)網(wǎng)絡(luò)聚類得到不同的抗原類,這樣就可以通過(guò)分析不同抗原類傳播過(guò)程來(lái)得到傳播規(guī)律。人H3N2流感病毒存在流行季的概念,S卩如果按照時(shí)間順序,以月為單位,把每個(gè)時(shí)間點(diǎn)的病毒數(shù)列出來(lái),可以看到在流行季病毒數(shù)比較多,而非流行季時(shí)間段病毒數(shù)相對(duì)來(lái)說(shuō)就非常少。因此,考慮到不同流行季所監(jiān)測(cè)病毒數(shù)以及測(cè)序病毒數(shù)的不均勻性,我們采用任意時(shí)間點(diǎn)的每個(gè)抗原類所包含的病毒數(shù)與其前后一個(gè)流行季時(shí)間段總病毒數(shù)的比例來(lái)描述病毒爆發(fā)以及抗原變化情況。用含有月份信息的數(shù)據(jù),通過(guò)上面的處理,再比較不同地區(qū)新抗原出現(xiàn)的先后就可以確定其傳播規(guī)律。中國(guó)人H3N2流感病毒進(jìn)化亞洲包括中國(guó)在內(nèi)很可能是全球人H3N2流感病毒優(yōu)勢(shì)抗原的起源地,因而加強(qiáng)這個(gè)地區(qū)的流感抗原監(jiān)測(cè)尤為重要。而很多研究也不約而同的指出,加強(qiáng)對(duì)亞洲熱帶、亞熱帶地區(qū)的流感監(jiān)測(cè),對(duì)全球流感的防治意義重大。中國(guó)大陸作為這個(gè)地區(qū)的大國(guó),在流感的進(jìn)化中扮演舉足輕重的地位。而中國(guó)流感中心在中國(guó)流感監(jiān)測(cè)中起領(lǐng)導(dǎo)地位,利用其健全的監(jiān)測(cè)網(wǎng)絡(luò),可以詳細(xì)描述人H3N2流感病毒在中國(guó)的抗原進(jìn)化規(guī)律,以便更深入有效的理解H3N2在全球的進(jìn)化與傳播。中國(guó)國(guó)家流感中心建立了完善有效的人流感監(jiān)測(cè)網(wǎng)絡(luò),即廣泛分布于全國(guó)各個(gè)省份直轄市的哨點(diǎn)醫(yī)院,每天進(jìn)行采樣,并依托分布于全國(guó)的流感網(wǎng)絡(luò)實(shí)驗(yàn)室,上報(bào)國(guó)家流感中心,流感中心對(duì)流感的流行情況進(jìn)行綜合的分析與評(píng)價(jià)?;谶@個(gè)監(jiān)測(cè)網(wǎng)絡(luò),流感中心每年對(duì)人H3N2流感病毒的抗原狀態(tài)進(jìn)行有效監(jiān)測(cè),并結(jié)合病毒的序列分子進(jìn)化分析,及時(shí)更新和推薦參考株,緊密與WHO溝通推薦疫苗候選株。流感中心的監(jiān)測(cè)網(wǎng)絡(luò)及其收集的數(shù)據(jù)對(duì)流感區(qū)域預(yù)防和防治起到十分重要的作用。為了從整體上有效描述人H3N2流感病毒在中國(guó)的進(jìn)化規(guī)律,把WHO歷年推薦的疫苗株加到中國(guó)大陸的序列庫(kù)中,通過(guò)本發(fā)明發(fā)展的抗原關(guān)系預(yù)測(cè)模型對(duì)兩兩病毒抗原狀態(tài)進(jìn)行預(yù)測(cè),并以此建立相應(yīng)的抗原關(guān)系網(wǎng)絡(luò),進(jìn)而對(duì)這個(gè)網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)聚類,得到不同的抗原類。從進(jìn)化樹(shù)上看,中國(guó)的人H3N2流感病毒也滿足主干式的進(jìn)化模式,反映在抗原關(guān)系網(wǎng)絡(luò)上,表現(xiàn)為抗原類的不斷替換。分析中國(guó)流感的進(jìn)化過(guò)程可以看到,中國(guó)國(guó)家流感中心推薦的參考株以及WHO的疫苗株很好的代表人H3N2流感病毒在中國(guó)的抗原進(jìn)化過(guò)程,能夠很好的覆蓋抗原整個(gè)進(jìn)化過(guò)程。但是,在抗原類WI05(以A/Wisconsin/67/2005疫苗株為代表株)與BR07(以A/Brisbane/10/2007疫苗株為代表株)之間,中國(guó)人H3N2流感病毒還存在一個(gè)獨(dú)立的抗原類,而中國(guó)流感中心也推薦了相應(yīng)的參考株用來(lái)表征這個(gè)抗原類,根據(jù)其參考株A/Jiangxidonghu/312/2006,把這個(gè)抗原類命名為JX06。JX06在中國(guó)只持續(xù)了很短的時(shí)間(06-07),并很快被BR07抗原類取代。在中國(guó),JX06卻在其流行期間占據(jù)H3N2的主導(dǎo)地位,并在抗原相關(guān)性網(wǎng)絡(luò)中形成一個(gè)獨(dú)立一簇。后續(xù)的分析表明,JX06在世界其他地方并沒(méi)有流行,說(shuō)明JX06在全球范圍內(nèi)并沒(méi)有成為優(yōu)勢(shì)株。人H3N2流感病毒進(jìn)化樹(shù)的主干代表優(yōu)勢(shì)株的進(jìn)化過(guò)程,如果把抗原流行株的抗原狀態(tài)描述到進(jìn)化樹(shù)的主干上,JX06出現(xiàn)在一個(gè)單獨(dú)的分支上,這可能說(shuō)明JX06只是一個(gè)抗原變異體,不具備很高的適應(yīng)性,因而沒(méi)有在全球流行。在人H3N2流感病毒的進(jìn)化歷史上,還存在一個(gè)類似的抗原類BE89(以A/Beijing/353/1989疫苗株為代表株),在進(jìn)化樹(shù)上處于一個(gè)獨(dú)立的分支,而在抗原關(guān)系圖上也表現(xiàn)為游離于其他抗原類之外,但跟JX06不同的是BE89在全球范圍內(nèi)流行過(guò),說(shuō)明區(qū)域變異株的不同命運(yùn)如果適應(yīng)性夠好,則會(huì)像BE89—樣全球流行;而如果適應(yīng)性不是太好,則只能像JX06—樣在局部區(qū)域短暫流行,并很快被其他優(yōu)勢(shì)抗原替代。JX06的例子同時(shí)也說(shuō)明,人流感抗原進(jìn)化的復(fù)雜性,不同地區(qū)可能存在不同,因此對(duì)于不同地區(qū),監(jiān)測(cè)了解其抗原狀態(tài)變化非常重要。中國(guó)人H3N2流感病毒傳播規(guī)律及其與其他亞洲國(guó)家的關(guān)系上面提到了解人H3N2流感病毒區(qū)域進(jìn)化規(guī)律對(duì)其防治的重要性,那人H3N2流感病毒在中國(guó)內(nèi)部的傳播規(guī)律如何?有什么特點(diǎn)?中國(guó)幅員遼闊,地大物博,地形多變,人口眾多,橫跨南北的疆域使得其幾乎包含所有的氣候類型。以秦嶺淮河一線,把中國(guó)劃分成南北方,而南北方在流感的流行規(guī)律上卻也截然不同北方屬于典型的北半球氣候,只有冬季一個(gè)流感流行季,在夏天幾乎分離不到病毒;而南方則一年有多個(gè)流行季,全年流行。很多文章對(duì)不同地區(qū)的傳播規(guī)律有過(guò)研究,JohnPagetetal通過(guò)監(jiān)測(cè)臨床流感病例的峰值在不同地區(qū)的差異來(lái)看流感在歐洲的傳播規(guī)律,而WladimirJ.Alonsoetal利用類似的辦法來(lái)研究流感在巴西的傳播,但這些方法都依賴于詳細(xì)的流行病學(xué)監(jiān)測(cè)。而人H3N2流感病毒的進(jìn)化就是優(yōu)勢(shì)抗原不斷替代舊抗原的過(guò)程,換句話說(shuō)就是優(yōu)勢(shì)抗原不斷擴(kuò)張的過(guò)程。既然本發(fā)明的方法從給定病毒序列的基礎(chǔ)上,就能夠有效描述出不同抗原類的進(jìn)化過(guò)程,那本發(fā)明就可以直接看出優(yōu)勢(shì)抗原的出現(xiàn)在不同區(qū)域間有什么特征,從而研究H3N2的傳播規(guī)律。把序列數(shù)據(jù)相對(duì)較多的2002到2008年這段時(shí)間內(nèi)中國(guó)大陸南北方的抗原類進(jìn)化過(guò)程按照月為時(shí)間單位描繪出來(lái),可以看到,北方只有一個(gè)冬季流行季,而南方在一年則表現(xiàn)出多個(gè)流行季很多時(shí)候是春季一個(gè)流行季夏季一個(gè)流行季。而不同抗原類在所分析的時(shí)間段里都表現(xiàn)出由南向北的傳播規(guī)律,而且一般是優(yōu)勢(shì)抗原株在夏季流行季流行,并在隨后的冬季流行季傳到北方并引起流感流行。中國(guó)南方屬于熱帶、亞熱帶氣候,有很多研究者都指出熱帶、亞熱帶地區(qū)在流感進(jìn)化中的特殊地位因?yàn)榱鞲性谶@些地區(qū)全年流行,因而更容易產(chǎn)生優(yōu)勢(shì)抗原株。從中國(guó)南北方傳播的分析中也可以看到,中國(guó)南方在中國(guó)地區(qū)人H3N2流感病毒進(jìn)化中有著重要地位優(yōu)勢(shì)抗原類都是起源于南方,并在南方先流行,并在隨后傳到北方。誠(chéng)然Smith把整個(gè)東亞、東南亞地區(qū)作為優(yōu)勢(shì)抗原的源頭,但至少?gòu)闹袊?guó)分析的結(jié)果可以看出這個(gè)地區(qū)還是存在差異。承接對(duì)中國(guó)傳播規(guī)律的分析以及亞洲不同地區(qū)之間關(guān)系的思考,用同樣的方法來(lái)研究亞洲不同地區(qū)間的傳播規(guī)律。分析可以看到,西亞、亞洲北部(蒙古)以及東亞的韓國(guó)、日本有著跟中國(guó)北方一致的只在冬季流行季流行的特征,而包括中國(guó)香港、澳門以及臺(tái)灣在內(nèi)的地區(qū)則跟中國(guó)南方的流行特點(diǎn)一致全年流行,一年有多個(gè)流感流行季。另外東南亞、南亞地區(qū)同樣有著跟中國(guó)南方一致的流感流行特征。這樣可以根據(jù)流感的這種流行特征把亞洲地區(qū)劃分成兩個(gè)地區(qū)一個(gè)是包括中國(guó)北方在內(nèi)的溫帶地區(qū),這個(gè)地區(qū)還包括西亞、亞洲北部(蒙古)以及東亞的韓國(guó)、日本;另外一個(gè)地區(qū)是熱帶、亞熱帶地區(qū),包括中國(guó)南部、中國(guó)香港、中國(guó)澳門、中國(guó)臺(tái)灣、南亞以及東南亞。而分析抗原類的傳播過(guò)程可以看至|J,人H3N2流感病毒在這段時(shí)間內(nèi)都是由亞洲熱帶、亞熱帶地區(qū)傳播到亞洲溫帶地區(qū),也就是新的優(yōu)勢(shì)抗原類一般在亞洲熱帶、亞熱帶地區(qū)先流行,并在隨后的冬季流行季到達(dá)亞洲溫帶地區(qū)。而優(yōu)勢(shì)抗原株在熱帶、亞熱帶地區(qū)的傳播很復(fù)雜,不是由單一的國(guó)家或地區(qū)向其他地區(qū)傳播,而是一個(gè)復(fù)雜的整體,在這個(gè)整體內(nèi),優(yōu)勢(shì)抗原不斷出現(xiàn),并傳播到亞洲其他地區(qū)。另一方面是,篩選疫苗候選株本發(fā)明的方法能有效描述抗原的進(jìn)化過(guò)程,因此本發(fā)明可以通過(guò)監(jiān)測(cè)抗原狀態(tài)的變化來(lái)及時(shí)地篩選疫苗候選株。這里的抗原狀態(tài)用某一個(gè)時(shí)間點(diǎn)的對(duì)應(yīng)抗原類所包含的病毒數(shù)除以這個(gè)時(shí)間點(diǎn)所有病毒數(shù)的比例來(lái)表示,這樣能夠反映前后抗原比例的變化。中國(guó)作為流感新抗原株起源地之一,抗原很多時(shí)候都超前,使得現(xiàn)有的疫苗不能很好的保護(hù)中國(guó)的人群。這里以中國(guó)2002年到2008年數(shù)據(jù)的為例,用本發(fā)明的方法來(lái)篩選疫苗候選株,看篩選的疫苗候選株的保護(hù)效果。考慮到疫苗株制備需要至少6個(gè)月的時(shí)間,以及中國(guó)處于北半球,以對(duì)應(yīng)冬季流行季(10月到來(lái)年三月)的抗原狀態(tài)變化來(lái)推薦下一個(gè)流行季的疫苗株??紤]到這種流行季相關(guān)的推薦方式,以及對(duì)應(yīng)時(shí)間段的數(shù)據(jù)問(wèn)題,以三個(gè)月為單位即季度為單位來(lái)分析。這樣,以對(duì)應(yīng)冬季流行季前兩個(gè)季度的抗原狀態(tài)變化來(lái)推薦來(lái)年流行季疫苗株,原則是1)有新的抗原類出現(xiàn),并且新的抗原類所占比例不斷增加,2)如果有多個(gè)新抗原類同時(shí)滿足上面條件,則選擇變化更顯著的抗原類作為疫苗候選株?;谥袊?guó)監(jiān)測(cè)數(shù)據(jù)的疫苗候選株篩選加深對(duì)人H3N2流感病毒進(jìn)化規(guī)律的理解,特別是對(duì)其抗原進(jìn)化規(guī)律的把握,了解其傳播規(guī)律,最終的目的是為了能及時(shí)有效的對(duì)流感進(jìn)行防治?,F(xiàn)在最有效的防治方式還是疫苗,通過(guò)及時(shí)準(zhǔn)確地推薦疫苗株,就能有效減少流感對(duì)于人類造成的傷害。WHO通過(guò)全球流感監(jiān)測(cè)網(wǎng)絡(luò),對(duì)全球流感進(jìn)行抗原監(jiān)測(cè),再結(jié)合流行病學(xué)以及分子進(jìn)化分析,適時(shí)推薦疫苗株。WHO每年分兩次分別對(duì)南北半球不同的流行季推薦疫苗株,指導(dǎo)疫苗的生產(chǎn)。但因?yàn)榭乖O(jiān)測(cè)方法的滯后性及靈敏度不夠,加之人H3N2流感病毒區(qū)域傳播所造成的抗原狀態(tài)不同步問(wèn)題,使得很多時(shí)間、很多地區(qū)存在疫苗株與流行株不匹配的問(wèn)題。因?yàn)閮?yōu)勢(shì)抗原更早的在起源地流行,這個(gè)問(wèn)題在亞洲尤為突出。因此,對(duì)于起源地抗原狀態(tài)的監(jiān)測(cè),以及基于此的疫苗株推薦就意義重大,這樣可以一方面有效保護(hù)起源地地區(qū)的人群,另外對(duì)其他地區(qū)疫苗推薦以及流感防治具有十分重要的指導(dǎo)意義。這里以中國(guó)數(shù)據(jù)為例來(lái)篩選疫苗候選株。流感抗原進(jìn)化就是優(yōu)勢(shì)抗原不斷替代舊抗原的過(guò)程,優(yōu)勢(shì)抗原類一旦出現(xiàn)并在人群中流行開(kāi),那它將迅速成為流行株,替代原有的舊抗原類?;谶@些認(rèn)識(shí),結(jié)合中國(guó)處于北半球的事實(shí),從序列出發(fā)對(duì)疫苗候選株進(jìn)行篩選在北半球冬季流行季結(jié)束之前,如果有新的抗原類出現(xiàn),并且其所占比例不斷增加,那就使用這個(gè)新抗原類合適的病毒株為隨后的流行季的疫苗候選株。應(yīng)用到中國(guó)的數(shù)據(jù)上,分別推薦02-03到07-08流行季代表抗原類FU02、FU02、CA04、WI05、WI05以及BR07的疫苗株,而在中國(guó)地區(qū),這段時(shí)間流行的優(yōu)勢(shì)抗原類分別是FU02、FU02、CA04、WI05、JX06以及BR07,其中03-04流行季流行的抗原類跟FU02抗原上非常相似,可以認(rèn)為是FU02。在這段時(shí)間,只有06-07流行季疫苗株跟流行株不匹配,而綜觀WHO推薦的疫苗株,則沒(méi)有一個(gè)流行季匹配,而其對(duì)北半球其它地區(qū)也只有兩個(gè)流行季能有效保護(hù)。這一方面說(shuō)明現(xiàn)有方式推薦的疫苗株中國(guó)以及其他地區(qū)的保護(hù)不好,同時(shí)也說(shuō)明通過(guò)本發(fā)明篩選疫苗候選株方法的的合理性與有效性。以中國(guó)的數(shù)據(jù)出發(fā)來(lái)篩選疫苗候選株,篩選的疫苗候選株能有效的保護(hù)中國(guó)地區(qū)的人群。但通過(guò)研究人H3N2流感病毒的傳播規(guī)律知道,亞洲熱帶、亞熱帶地區(qū)作為優(yōu)勢(shì)抗原的起源地,優(yōu)勢(shì)抗原在這個(gè)地區(qū)流行比其他地區(qū)要更早流行,例如比澳洲、北美以及歐洲要早半個(gè)流行季甚至更長(zhǎng)時(shí)間。這就使得針對(duì)優(yōu)勢(shì)抗原起源地的抗原監(jiān)測(cè)以及疫苗候選株的篩選具有特殊的意義,因?yàn)榛谶@個(gè)地區(qū)篩選的疫苗候選株,不僅能有效保護(hù)這個(gè)地區(qū)的人群,對(duì)世界其他地區(qū)流感防治同樣有指導(dǎo)意義。通過(guò)本發(fā)明的分析可以看到,如果優(yōu)勢(shì)抗原在亞洲的冬季流行季起源,那么在隨后的夏季流行季傳到澳洲(澳洲的冬季流行季),而下一個(gè)冬季流行季到達(dá)北美以及歐洲;而如果優(yōu)勢(shì)抗原是在亞洲夏季流行季起源,那么在同一個(gè)或再下一個(gè)夏季流行季(澳洲冬季流行)就有可能傳到澳洲,并在接下來(lái)的冬季流行季到達(dá)北美以及歐洲使得可以有至少半個(gè)流行季(3-6個(gè)月)的預(yù)警期,可以根據(jù)起源地分別推薦不同的疫苗株,能對(duì)其它地區(qū)人H3N2流感病毒進(jìn)行有效防治。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求一種通過(guò)模型預(yù)測(cè)流感抗原的方法,其特征在于,包括通過(guò)以下表1和式(1)構(gòu)建的模型預(yù)測(cè)兩兩病毒之間抗原相似還是抗原變異抽提影響流感抗原的12個(gè)特征五個(gè)抗原決定簇氨基酸的突變個(gè)數(shù)、HA蛋白氨基酸的五個(gè)理化特性、影響受體結(jié)合因素、糖基化位點(diǎn)改變的個(gè)數(shù),所述HA蛋白氨基酸的五個(gè)理化特性包括疏水性、體積變化、帶電性、極性、可積表面積;對(duì)3681對(duì)已知抗原相似的病毒對(duì)和1720對(duì)抗原變異的病毒對(duì)的上述12個(gè)特征進(jìn)行統(tǒng)計(jì),得到表1表1中的數(shù)據(jù)分別表示抗原相似病毒對(duì)的特征改變大和小的數(shù)量及抗原變異病毒對(duì)的特征改變大和小的數(shù)量;<mrow><msub><mi>P</mi><mi>oddsratio</mi></msub><mo>=</mo><mfrac><mn>172</mn><mn>3682</mn></mfrac><msup><mrow><mo>(</mo><mfrac><mn>3683</mn><mn>1722</mn></mfrac><mo>)</mo></mrow><mn>12</mn></msup><mo>×</mo><munderover><mi>Π</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mn>12</mn></munderover><mfrac><mrow><mn>1</mn><mo>+</mo><munder><mi>Σ</mi><mrow><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn></mrow></munder><msub><mover><mi>x</mi><mo>~</mo></mover><mi>ij</mi></msub></mrow><mrow><mn>1</mn><mo>+</mo><munder><mi>Σ</mi><mrow><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mn>0</mn></mrow></munder><msub><mover><mi>x</mi><mo>~</mo></mover><mi>ij</mi></msub></mrow></mfrac><mo>,</mo><msub><mover><mi>x</mi><mo>~</mo></mover><mi>ij</mi></msub><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><msub><mi>x</mi><mi>ij</mi></msub><mo>,</mo><mi>if</mi><msub><mi>X</mi><mrow><mi>j</mi><mo>,</mo><mi>new</mi></mrow></msub><mo>=</mo><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn><mo>-</mo><msub><mi>x</mi><mi>ij</mi></msub><mo>,</mo><mi>if</mi><msub><mi>X</mi><mrow><mi>j</mi><mo>,</mo><mi>new</mi></mrow></msub><mo>=</mo><mn>0</mn></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo></mrow>式中Poddsratio表示優(yōu)勝率,Poddsratio<1時(shí)被預(yù)測(cè)的病毒對(duì)抗原相似,Poddsratio>1時(shí)被預(yù)測(cè)的病毒對(duì)抗原變異;Xj,new表示待預(yù)測(cè)的病毒對(duì)的第j個(gè)特征改變情況,Xj,new以及Poddsratio通過(guò)以下方法計(jì)算首先,分別對(duì)所述影響流感抗原的12個(gè)特征進(jìn)行量化,并分別取以下閾值0、2、0、1、0、1.82、54.667、2.493、34.867、0.098、113.607、1;然后,對(duì)被預(yù)測(cè)病毒對(duì)的12個(gè)特征分別進(jìn)行比較計(jì)算,當(dāng)二者的特征差異小于其對(duì)應(yīng)的閾值時(shí),Xj,new=0,對(duì)應(yīng)表1第j個(gè)特征在抗原相似的病毒對(duì)中特征改變小的數(shù)量,對(duì)應(yīng)表1第j個(gè)特征在抗原變異的病毒對(duì)中特征改變小的數(shù)量;當(dāng)二者的差異大于或等于其對(duì)應(yīng)的閾值時(shí),Xj,new=1,對(duì)應(yīng)表1第j個(gè)特征在抗原相似的病毒對(duì)中特征改變大的數(shù)量,對(duì)應(yīng)表1第j個(gè)特征在抗原變異的病毒對(duì)中特征改變大的值。FSA00000083786500021.tif,FSA00000083786500022.tif,FSA00000083786500023.tif,FSA00000083786500024.tif2.根據(jù)權(quán)利要求1所述的通過(guò)模型預(yù)測(cè)流感抗原的方法,其特征在于,所述的3681對(duì)已知的抗原相似的病毒對(duì)和1720對(duì)抗原變異的病毒對(duì)通過(guò)以下方法得到已知Smith等人把1968年到2003年間的253株人H3N2流感病毒劃分成11個(gè)抗原類;對(duì)于這253株病毒,如果兩個(gè)病毒處于同一抗原類,就認(rèn)為它們是抗原相似株;如果這兩個(gè)病毒處于不同的抗原類,就認(rèn)為他們是抗原變異株,得到31878對(duì)兩兩病毒間的抗原關(guān)系;選取兩兩病毒HAl蛋白序列差異數(shù)介于1-9的病毒對(duì)。3.根據(jù)權(quán)利要求2所述的通過(guò)模型預(yù)測(cè)流感抗原的方法,其特征在于,所述的閾值通過(guò)對(duì)所述的3681對(duì)已知的抗原相似的病毒對(duì)和1720對(duì)抗原變異的病毒對(duì)進(jìn)行統(tǒng)計(jì)得到。4.一種權(quán)利要求1、2或3所述的通過(guò)模型預(yù)測(cè)流感抗原的方法的應(yīng)用,其特征在于,用于構(gòu)建抗原關(guān)系網(wǎng)絡(luò)通過(guò)預(yù)測(cè)病毒對(duì)之間抗原相似還是抗原變異的關(guān)系,建立所有病毒之間的抗原關(guān)系網(wǎng)絡(luò),把每個(gè)病毒作為節(jié)點(diǎn),把抗原相似的病毒之間給一個(gè)連線,構(gòu)成所述抗原關(guān)系網(wǎng)絡(luò)。5.根據(jù)權(quán)利要求4所述的通過(guò)模型預(yù)測(cè)流感抗原的方法的應(yīng)用,其特征在于,包括對(duì)所述抗原關(guān)系網(wǎng)絡(luò)進(jìn)行聚類。所述抗原關(guān)系網(wǎng)絡(luò)的聚類包括抽提出所述抗原關(guān)系網(wǎng)絡(luò)中的局部連接密度比較大的區(qū)域,作為抗原相似簇。6.根據(jù)權(quán)利要求5所述的通過(guò)模型預(yù)測(cè)流感抗原的方法的應(yīng)用,其特征在于,所述抗原關(guān)系網(wǎng)絡(luò)的聚類通過(guò)MCL方法。7.根據(jù)權(quán)利要求6所述的通過(guò)模型預(yù)測(cè)流感抗原的方法的應(yīng)用,其特征在于,用于揭示流感的傳播規(guī)律。8.根據(jù)權(quán)利要求6所述的通過(guò)模型預(yù)測(cè)流感抗原的方法的應(yīng)用,其特征在于,用于按以下原則進(jìn)行篩選疫苗候選株當(dāng)有新的抗原相似簇出現(xiàn),并且新的抗原相似簇所占比例不斷增加,則選擇該抗原相似簇作為疫苗候選株;如果有多個(gè)新抗原相似簇同時(shí)滿足上面條件,則選擇變化更顯著的抗原相似簇作為疫苗候選株。全文摘要本發(fā)明公開(kāi)了一種通過(guò)模型預(yù)測(cè)流感抗原的方法及應(yīng)用,通過(guò)抽提影響流感抗原的12個(gè)特征五個(gè)抗原決定簇氨基酸的突變個(gè)數(shù)、HA蛋白氨基酸的五個(gè)理化特性、影響受體結(jié)合因素、糖基化位點(diǎn)改變的個(gè)數(shù),氨基酸五個(gè)理化特性包括疏水性、體積變化、帶電性、極性、可積表面積,并對(duì)3681對(duì)已知的抗原相似的病毒對(duì)和1720對(duì)抗原變異的病毒對(duì)的上述12個(gè)特征進(jìn)行統(tǒng)計(jì),建立一個(gè)抗原關(guān)系的預(yù)測(cè)模型,單純從序列出發(fā),就能給出病毒之間的抗原關(guān)系,簡(jiǎn)單、方便、靈敏度高。通過(guò)網(wǎng)絡(luò)的方式能夠形象的展示抗原進(jìn)化的過(guò)程,用于揭示流感傳播規(guī)律和篩選疫苗候選株等。文檔編號(hào)G06F19/00GK101847179SQ20101014753公開(kāi)日2010年9月29日申請(qǐng)日期2010年4月13日優(yōu)先權(quán)日2010年4月13日發(fā)明者吳愛(ài)平,張燁,彭友松,杜向軍,王大燕,舒躍龍,董麗波,蔣太交,藍(lán)雨申請(qǐng)人:中國(guó)疾病預(yù)防控制中心病毒病預(yù)防控制所;中國(guó)科學(xué)院生物物理研究所