附錄6 基因型填補(1 / 3)

研究者還通過元分析手段為基因分數測量做出自己的貢獻,將自己測量的SNP添加到了千人基因組平台,以便所有人(無論使用哪種芯片)都能夠接收更多的相關人群信息(至少在理論上如此,因為一些研究也許存在數據缺失,或者其他妨礙等位基因被填補的變異)。“填補”活動需要利用染色體軌道周圍的SNP,通過將它們和特定單倍型(同方向變動的SNP組合)進行匹配的方式來推測其周圍發生的變異。想象一下,Illumina芯片在1號染色體的10號位(從鏈的一端數起的第十個堿基對)測量C和A的變異。在1000號位,該芯片還測量了變異T和A。填補平台(10號位和1000號位之間的位置序列)也許還存在6個顯示出顯著變異的其他標記。

對於這段DNA,我們的樣本中的每個1號染色體有4種可能性——C和T,C和A,A和T以及A和A(前一位是10號位點的,後一位是1000號位點的)。如果我們發現C和T之間包著一個特殊的中間序列,它幾乎存在於每一個千人基因組樣本中,如ATGGA,那麼我們可以把那些變異填補進來,從而增加納入分數計算中的等位基因數量。以上是一個過度簡化的過程,因為填補不僅基於夾著某個特定序列的兩個堿基,而且也不是每次都有如此確定的一個固定序列,但基本思想是一樣的。填補的一個好處是,不同芯片可以獲取大致相同位點的信息;另一個好處是我們得到了更多的信息。這樣做的效果雖然不如去測量中間片段,但也有不少好處。事實上,對於歐裔人口,在重複樣本(希望能預測其結果的樣本)中,使用填補堿基在已測的堿基之上所增加的預測力非常小。

為什麼走填補這條路會繞很大彎?答案是,填補是在種族群內部進行的。也就是說,這個分數(以及大多數針對其他結果的分數)是基於填補到歐洲HapMap或千人基因組樣本的數據計算的。我們回想一下,非裔的單倍型結構與其他人十分不同。具體來說,撒哈拉以南人口的變異要多得多。這就意味著,即使已測的基因型在歐洲和非洲裔美國人群中恰好顯示相同的雙等位基因變異(即C和T分別為10號位和1000號位的錨定SNP),它們中間夾著的變異序列在兩類人群中也很可能截然不同。也就是說,非裔人口會有更多、更不同的單倍型,因此對美國黑人來說,填補會更加困難和不準確。

圖A6.1表示了實際情形。我們從23andme讀取了我們的原始數據,並選擇了一個隨機的SNP——它恰好在8號染色體上,標簽為rs1380994。當我們使用來自千人基因組的歐裔人群(實際上是來自美國猶他州的北歐和西歐裔人組成的一個樣本,種群代碼為CEU),在8號染色體上該SNP的區域的連鎖結構中畫出該SNP時,可以看到,給定的連鎖(即排在一起的堿基)閾值R2=0.3,於是這個SNP就讓我們能夠觀察到四個基因,加上基因之間的序列。這意味著,如果rs1380994在我們的多基因分數中,它可能會檢測到跨越四個不同蛋白編碼區的遺傳效應。對尼日利亞伊巴丹的約魯巴人的千人基因組樣本中的同一個SNP(rs1380994)做同樣處理後,我們發現SNP隻代表了一個蛋白質編碼基因。2sup>由於非裔樣本中的變異較大,所以收到的效果較差。而且,這還隻是非洲的一個城市的一個部落!與此同時,一般認為,美國人樣本綜合了大部分西歐族裔。想象一下,如果我們在西非同樣地理跨度內的受訪者中取樣,這一個SNP能提供的觀測範圍就要小得多。關鍵在於,SNP承載的含義因種族而異,因此並不具有真正的可比性。

研究者還通過元分析手段為基因分數測量做出自己的貢獻,將自己測量的SNP添加到了千人基因組平台,以便所有人(無論使用哪種芯片)都能夠接收更多的相關人群信息(至少在理論上如此,因為一些研究也許存在數據缺失,或者其他妨礙等位基因被填補的變異)。“填補”活動需要利用染色體軌道周圍的SNP,通過將它們和特定單倍型(同方向變動的SNP組合)進行匹配的方式來推測其周圍發生的變異。想象一下,Illumina芯片在1號染色體的10號位(從鏈的一端數起的第十個堿基對)測量C和A的變異。在1000號位,該芯片還測量了變異T和A。填補平台(10號位和1000號位之間的位置序列)也許還存在6個顯示出顯著變異的其他標記。