Celera的测序方法 Celera采用了全基因组霰弹法来测定人类基因组序列。这种方法就是把人类的染色体阻随机打断成数百万长度为2千-10千碱基对的小片段,然后将这些片段插入质粒载体(目的是创建「DNA」库)。之后将质粒在大肠杆菌中扩增繁殖,得到对每一片段的两端(5`端和3`端)同时进行测序。最后一步称为「双末端测序」,这一步也是Celera测序过程中的主要特点,其优点是在拼接过程中有助于确定各片段的方向和次序。 将来自Celera和人类基因组计划的数据整合在一起,计算机算法对这数百万测序片段进行了拼接,得到了完整连续的人类基因组序列。在拼接过程中使用到了两种方法:全基因组拼接和分级的「霰弹法」拼接(CSA),即将基因组数据先分成若干部分,再分别进行拼接。后者(CSA拼接)在注释方面的应用已经在《科学(science)》杂志上有过报道。这两种不同的拼接结果相互比较,也可以用于检测拼接的准确性。
Celera测序的对象 在测定人类基因组的过程中,Celera使用的测序样本来自5个人,他们分别属于西班牙裔、亚洲裔、美洲裔和高加索裔。这五个人(2男3女)是从21个志愿者中挑选出来的,而这些志愿者都是在看到报纸广告自愿加入的 关于测序能力和计算能力 Celera进行的人类基因组测序的迅速进展,依赖于高效率的自动测序仪—ABI Prism3700。300台测序仪同时昼夜运转,因此,Celera每年一百万美元的电费单也就不足不奇了。 计算机在基因组拼接中起着重要作用。 Celera依靠高性能的计算机技术,能够处超过80万亿(Tb)的数据,而且这种计逄在某种程度上被计为是超级计逄机历史上最复杂的计算。在Celera超级计算机的初步拼接中,涉及到5X(500milliom trillion)的序列比较,这在Celera的超级计算机上仍需要20000个能上能下的CPU时。在Celera的最终拼接中,对内存的要求也达到了64G。
简体繁体