基因组的整体排列产生了另一个令人吃惊不小的冲。某种程度上它就像你的车库、卧室、冰箱乃至生活------高度的个人化,不整洁,没有一点秩序,到处堆积(DNA「垃圾」区)。事实上,所有的都不错不能扔掉。同样,几个显然有用的区域也杂乱地随机散布在基因组中。
这些有用的区域本身就是基因。那背运编码蛋白质的序列,外显子,仅占整个基因组的一小部分。然而内含子序列却占了24%。基因不均衡地散布在基因组中甚至粘连在一起,遗传学者们将这睦区称作人类基因组的拥挤地带。一些基因挤在同一特定区域,就如同拥挤的城市中心,相反另一些则星星点点地散布在宽阔的「荒漠」地带。这个夸张的人类基因组地形与基他有机体有所不同,例如果蝇、线虫、拟南芥的基因分布就要规则得多。
人类基因组大约有半数是由重复序列组成的。这些重复序列大部分(45%)是「寄生」DNA序列的重复片段,即众所周知的可转移成分,又称转座子。这些重复序列是通过复制然后将复制片段插入基因组中新的位点而形成的。重复片段的数量比任何已测序物种的基因组都要多。在一个典型的细菌组中它们仅占1。5%,如蝇中3%,线虫中7%,拟南芥中11%。
令人奇怪的是,人类基因组中大多数重复序列都是些古老的转座子所留下来的,他们片段较长且没有活性.比较而言,果蝇和小鼠的基因组更为年轻而有活力。人类基因中已知还有活力的转座成分只有两个,它们是长散布序列1(LINEI)和Alu。两者占有我们基因组得复序列的60%。 LINEI序列编码复制它本身所需的元件。 Alu则不能复制自身;它使用LINEI的复制元件完成复制,某种程度上算是个寄生者,一个非常成功的寄生者。 Alu是最多的可转移成分,在整个人类基因组中就散布有一百万个拷贝。
大多数可转移成分在一亿多年前就进入我们祖先的基因组中。远比哺乳动物(真哺乳动物亚纲)胎盘的发展要早。一些转座子数量剧增,例LINEI和Alu,另一些看来则好像觉得周围环境不佳而数量较少,例如人类基因组中只可以检测到弱痕的被称作LTR的反向转座子,尽管这种转座子在小鼠基因组仍然活跃。另一类重复序列标记着人类基因组活力爆发的两个时期:即有胎盘哺乳动物形成与形成后。
大多数重复序列,在基因组的世代传递发展中都不必受到严格的选择压力以保持其序列的完整性。因为它们不编码任何有功能的产生,因此,随着时间的推移,突变在这些重复序列中累积。通过研究的变化,追溯重复元件在人类基化过程中的变迁,这为展现人类历史打开一个迷人的窗口。遗传考古学家们能过考证重复序列来描绘遗传变化的发展模式及时刻表,以此重现人类基因组的发展史及人类的进化史。
基因组为何工背负如此沉重的「寄生DNA」的负担呢?我们在清除历史入侵者的残迹时,是否显得过于邋遢了?我们可否被简单的看成是这些激增的自私成分的载体?或者我们把它们保留焉得虎子是另有用途/似乎两者都点道理。有证据显示转座子促成了基因组的进化,是新基因形的媒介。已经在控制上百个基因表达调控序列中发现了转座子的片段。所以,转座子的存在是为了调节特定基因的表达,并不是完全不可想像的。
正如人类基因的不均衡分布,重复序列的分布也是不均衡的。大多数重复序列(包括LIE1),都在腺嘌呤和胸腺嘧啶碱基分布丰富的地区。这些利于将它们同基因编码区分开,基因编码区则通常具有较高的鸟嘌呤和胞嘧啶含量。因此可移动成分被移入那些看来不易破坏苈在编码序列或者损害其寄主的区域。与此相反,Alu序列常出现在鸟嘌呤和胞嘧啶含量高的区域,这种选择性分布的原因还令遗传学家们费解。但这表明Alu可能「正趋性」地影响基因,关有利于它们的表达和演化。
简体繁体