一、實驗目的
(1)了解下一代測序技術的原理及其在微生物學研究中的應用。(2)掌握基因組裝軟件Velvet的使用方法。二、實驗原理第一代測序技術始於1975年Sanger的雙脫氧鏈終止法,發展到現在,Sanger測序用四種不同的熒光染料分別標記片段末端不同的堿基,通過電泳將不同長度的片段分開,根據末端堿基得到原始序列信息。目前,Sanger測序可以測到800~1000個堿基,但是測序通量很小,而且價格昂貴。2004—2005年間開始商業化使用的第二代測序技術(Next\|GenerationSequencing)克服了以上兩個缺點,它可以同時對多個DNA片段進行平行測序:將打碎後建庫的DNA片段錨定在固體介質表麵,比如通過連接接頭的方法將DNA片段錨定在多個磁珠上進行PCR反應(Roche/454平台),或者錨定在測序通道內表麵進行橋式PCR(Illumina平台)。通過對每個錨定DNA每加一個堿基進行一次“加上熒光染料—洗脫多餘染料—熒光成像掃描”的循環過程,實現平行高通量的深度測序(圖30\|1)。目前常用的平台是Roche/454公司的FLX測序儀Illumina的HiSeq2000測序儀和ABI的SOLiD測序平台。根據提供的DNA來源和前期處理的不同,二代測序技術可以用以解答不同研究目的的生物學問題,如可以用於微生物研究中的比較基因組學、轉錄組學、宏基因組學等。圖31\|1Illumina測序原理
本實驗將學習使用Velvet軟件組裝Illumina/Solexa平台基因組測序結果。Velvet軟件主要有兩個程序組成:velveth和velvetg。(1)velveth的輸入默認是fasta格式的序列文件,也能識別fastq、fasta.gz、fastq.gz、sam、bam、eland和gerald文件。序列類型默認是short,也可以是shortPaired、short2、shortPaired2、long或longPaired。命令格式為:$./velvethoutput_directoryhash_length[[\|file_format][\|read_type]filename]velveth運行的結果生成一個hash表,並輸出3個文件,其中Roadmaps和Sequences文件是下一步velvetg程序運行必需的。Log:日誌文件Roadmaps:路線圖文件Sequences:序列文件,包含所有輸入的序列(2)velvetg是velvet的核心程序,其命令格式為:$./velvetgoutput_directory/[\|cov_cutoff][\|max_coverage]…運行的結果輸出以下文件:contigs.fa:fasta格式的組裝好的片段,長度大於2k(k為velveth運行時用的字長)PreGraph:中間組裝圖LastGraph:最後組裝圖Graph:最後組裝圖stats.txt:統計信息三、實驗材料與儀器(1)計算機(安裝有UbuntuLinux係統)。(2)E.coli基因組測序原始序列文件,E.coliK12的基因組測序數據可以從下麵網址下載:http://download.clcbio.com/testdata/raw_data/solexa.zip。四、實驗步驟(1)分離細菌E.coli單克隆,菌株在25mLLB中培養過夜,用於基因組DNA提取。(2)基因組提取可以用細菌基因組提取試劑盒,如QIAGENDNeasyBlood&TissueKit,DNA提取步驟參考試劑盒說明手冊。(3)紫外光譜檢測提取的基因組DNA質量。一般基因組DNA樣品(~20μg)在230nm與260nm有吸收峰,要求比值280/260>18;並且比值260/230>2。(4)每菌株樣品提交至少2μg基因組DNA用於高通量測序。目前測序公司常見用Illumina公司的HiSeq2000測序儀,可測兩末端各100bp的數據。測序文庫的構建流程及其他Illumina平台測序技術可以參考Illumina公司網站的說明:http://www.illumina.com/technology/sequencing_technology.ilmn。(5)測序數據的預處理。高通量測序的序列數據一般存儲在FASTQ格式文件,文件後綴一般為.fastq,.fq等。FASTQ格式以每個測序讀長(read)為4行,分別為頭、序列、序列ID(可選)和質量分數(ASCII編碼表示)。@HWI-EAS737∶1∶1∶2∶687#0/1TGTCTANTGAATTCTAAAAACAGTACTTTTNTTGTTTNTTTGCAAAAAAA