人类基因组图谱的介绍

如题所述

由美国国立人类基因组研究所(nhgri)和能源部(doe)领导的ihgsc不久前宣布,人类基因组测序工作已圆满完成,其发表在2004年10月21日nature(2004,431:931)上的分析
报告对2001年2月发表的初步分析报告进行了补充。这篇最新分析报告不但为世人展现了一张精度大于99%、误差小于10万分之一的精确版人类基因组图谱,而且还进一步纠正了蛋白编码基因的数量,仅为2万~2.5万个,而非原先估计的3万~3.5万个。新基因组图谱 准确率达99.999%
旨在破译人类基因组常染色质遗传密码的人类基因组计划(hgp)自1990年启动至2003年结束,历时共13年, 该计划由ihgsc来完成。ihgsc是由法国、德国、日本、中国、英国和美国等6个国家20个研究所的科学家组成的开放性国际协作组织,全球2800余名科学家参加了ihgsc的工作。
2001年2月,ihgsc宣布,人类基因组草图已经完成。以今天的眼光来看,草图显然存在很多重要的不足,例如,仅测出了约90%的常染色质基因组序列,而且序列之间存在147821个未检测出的空缺等等。
在2001-2003年之间,ihgsc的不懈努力终于将此草图转化为今天这张既高度精确又相当完整的人类基因组图。此外,在这段时间内,还陆续发表了关于第2、6、7、9、10、13、14、19、20、21、22号染色体和y染色体的详细评注和分析,其余12条染色体的资料不久也将发表。
现在的基因组序列(buiid35)共包含28.5亿个核苷酸,它近乎完整,涵盖了99%以上的常染色质基因组序列;准确率为99.999%,也就是说误差率只有1个碱基/10万个碱基对,比最初制订的目标精确了10倍。
序列的连续性亦获得了显著改善,常染色质基因组序列中仅存在341个空缺。现在,平均每一段连续序列含有3850万个碱基对,约比2001年版草图的81500个碱基对长475倍。这些没有中断的已知序列可以在很大程度上帮助科学家寻找目标基因及其邻近的调节目标基因活性的序列,并显著减少他们寻找疾病相关性短而少见的序列的工作量和费用。在剩余的341个空缺中,很多与片段的重复(segmentalduplications)相关,需要采用新的方法才能将其填满。
ihgsc所完成的测序工作不仅完整而且精确,足以进行一些对敏感性要求较高的科学分析,例如基因数目的研究,疾病相关性重复片段的研究,以及进化过程中基因“生”或“死”
的研究。该基因组序列的资料已于2003年4月被载入免费公用数据库。“完成”并非意味着现在的人类基因组图就是完美无缺的。虽然与2001版草图相比,空缺已经从近15万个减少至341个,但是人类基因组序列的这些顽固空缺已很难用现有的技术来填补。填补这些空隙需要做进一步的研究,并需要采用新的技术。
美国马萨诸塞州麻省理工学院和哈佛大学broad研究所所长lander说:“已完成的人类基因组序列在准确率、完整性和连续性方面远远超过了我们的预期目标。它反映出全球数百名科学家为了一个共同目标——为21世纪的生物医学奠定扎实的基础——而进行大协作的奉献精神。”
仅有2万~2.5万个蛋白编码基因
ihgsc最新分析所得出的最出人意料的结果就是,人类基因组只含有2万~2.5万个蛋白编码基因。
nhgri所长collins说:“仅仅在10年以前,大多数科学家还认为,人类基因组大约含有10万个蛋白编码基因。3年前,当我们对人类基因组序列草图进行分析时,我们估计人类约有3万~3.5万个蛋白编码基因,这在当时已经使很多人感到震惊。而刚刚结束的分析结果发现人类的蛋白编码基因数比预计的还要少得多,这使我们对人类基因组的真实情况有了更准确的了解。全世界的科学家都可以从免费公用数据库中获得该高度精确的人类基因组序列,这就使他们有可能对人类遗传学及其影响人类健康和疾病的机制进行更精确的研究。”
人类基因组分析的主要目的之一就是确定人类的全部基因。基因是编码特定蛋白质的一段dna序列,是遗传的基本功能单位。目前的研究结果显示,人类基因组有19599个已经获得确定的蛋白编码基因,另外还有2188段可能为蛋白编码基因的dna序列。
英国wellcometrustanger研究所rogers说:“由于2001年版人类基因组草图不够完善,因此导致了一些早期基因模型是错误的。基因鉴定仍是一项艰巨的任务。除了其他生物的基因组序列、更好的计算机化模型和其他手段的改进外,人类基因组测序工作的完成必将为基因鉴定工作提供极大的帮助。”
人类基因重复片段高达5.3%
科学家们认为,已完成的人类基因组序列不但确定了更为确切的人类基因数量,而且与2001版基因组序列草图相比,质量也有显著的提高,并且使人们对某些现象有了征(胸腺发育不良)。美国圣路易斯市华盛顿大学基因组测序中心前主任、西雅图市华盛顿大学基因组系主任waterston说:“以前只有基因组序列草图的时候,要对重复片段进行研究几乎是不可能的。通过全世界科学家坚持不懈的努力,现在我们已经可以对人类基因组中这一重要而快速进化的部分进行研究了。”
重复片段覆盖了5.3%的人类基因组,显著多于大鼠的基因组(约为3%)或小鼠的基因组(在1%~2%之间)。重复片段为人们开启了一个了解人类基因组是如何进化的以及人类基因组目前正在经历什么样的变化的窗口。人类基因组如此高的重复片段百分比表明,在最近4000万年内,人类的遗传物质经历了快速的功能变革和结构改变。这大概就是人类具有独特的特征,从而有别于其非人类灵长类动物祖先的原因。
ihgsc在分析中发现,重复片段在不同的人类染色体之间的分布差异很大。y染色体就是一个最极端的例子,其重复片段占总长度的25%以上。有些重复片段往往群集于每
条染色体的中部(着丝粒)或末端(端粒)附近。科学家们推测,基因组可能将着丝粒和端粒处的重复片段用作一个进化实验室,来生成具有新功能的基因。揭示基因的“生”与“死”
已完成的人类基因组序列准确度很高,这使科学家有可能了解在人类进化过程中基因的“生”和“死”。科学家在人类基因组中发现了1000多个新基因,这些基因是大约7500万年前人类与啮齿类动物向不同方向进化以后产生的。这些基因多数是最近通过基因重复产生的,与免疫、嗅觉和生殖功能有关,例如,人类基因组中最近重复的两个基因家族分别编码两组蛋白质,妊娠特异性β1糖蛋白和绒毛膜促性腺激素β蛋白,这两组蛋白质可能与人类独特的较长的妊娠期相关。
此外,科学家们还利用已完成的人类基因组序列发现并鉴定了33个几乎没什么变化的基因,但是由于它们在近期发生了1个或1个以上突变而导致了其功能丧失(或称为“死亡”)。科学家通过将这些基因与大鼠和小鼠基因组中的对应基因(鼠类中这些对应基因的功能仍保持)进行对照比较后,确定了这些无功能基因(又称为假基因)在人类基因组的确切位置。有趣的是,科学家们还发现,上述33个假基因中的10个似乎与编码嗅觉感受器的蛋白相关,这就有助于解释为什么人类的功能性嗅觉感受器较少,从而导致了人类的嗅觉比啮齿类动物差。axel和buck不久前就因在嗅觉分子生物学方面所做出的杰出贡献而获得了2004年诺贝尔生理学或医学奖。
然后,科学家将这33个假基因和黑猩猩的基因组序列草图进行了对照比较,以确定这些基因在大约500万年前类人猿进化为人类前是否还是有功能的。分析结果显示,33个假基因中的27个在人类中和在黑猩猩中均无功能,但有5个假基因虽在人类中无功能,但在黑猩猩中还是有功能的。美国休斯顿baylor医学院人类基因组测序中心主任gibbs说:“对这些人类基因组中的假基因以及黑猩猩基因组中仍有功能的对应基因的确定,为将来的研究项目打下了坚实的基础。”gibbs等目前正在进行另一种非人类灵长类动物——恒河猴基因组的测序工作。

温馨提示:答案为网友推荐,仅供参考
相似回答