中国网/中国发展门户网讯 2001年2月15日,被称为破译“生命天书”的人类基因组序列草图正式发表。20年前,我国科学家参与并完成国际“人类基因组计划”(HGP)1%的任务,使我国成为世界上少数几个能独立完成大型基因组分析的国家,为中国生命科学研究和生物产业发展开拓了无限的空间。
20年来,这一划时代的成就,给人类对疾病和物种演化的认知带来了革命性变化。基因测序技术不断进步,测序成本以“超摩尔速度”直线下降,新的基因组药物不断问世,科学家们解密的致病基因越来越多。但相比未来,生命科学的组学时代才曙光初现。
6月26日,在人类基因组草图公布20周年之际,中国科学院遗传与发育生物学研究所、中国科学院北京基因组研究所(国家生物信息中心)和华大基因联合举办“纪念国际人类基因组工作草图绘制和‘1%项目’完成座谈会”,以回顾基因组学发展历程,推动我国生命科学更快、更好地发展。
从1%到第一梯队
基因组学的“中国”印记
1953年,英国科学家弗朗西斯•克里克(Francis Crick)和詹姆斯•沃森(James Watson)发现DNA(脱氧核糖核酸)的双螺旋结构——由含有四种碱基(A、T、C、G)的脱氧核苷酸连接而成的长链。这4个“字母”排列组合构成了所有物种基因组的“天书”。
如何破译这部天书,从而了解生命的奥秘呢?1977年,英国生物化学家弗雷德里克•桑格(Frederick Sanger)等发明了末端终止测序法,标志着第一代DNA测序技术的诞生。同年他们测定了第一个基因组序列,全长5375个碱基的噬菌体X174。自此,人类获得了窥探生命遗传密码的能力。
此后,解码DNA序列的尝试就从未停止。
1990年10月, “人类基因组计划”在美国首先启动,进而英、日、法、德相继参与,组成了国际“人类基因组计划”协作组,其核心内容是测定人类基因组的全部DNA序列,获得人类全面认识自我最重要的生物学信息。
这项被誉为生命科学领域“阿波罗登月计划”的“盛宴”,中国要参与吗?答案是肯定的。
1994年,中国“人类基因组计划”(CHGP)在谈家桢、吴旻、强伯勤、陈竺,以及沈岩、杨焕明等科学家倡导下启动。
1997年11月,在湖南张家界举行的中国遗传学组青年委员会第一次会议上,杨焕明、于军、汪建、贺福初、贺林、余龙、夏家辉等青年科学家商议要加入国际“人类基因组计划”,推动中国基因组科学的发展。
随后,在中国科学院和国家南、北方基因组中心同行的支持下,中国科学院遗传所(现遗传发育所的部分前身)人类基因组中心在1998年8月成立。按遗传所原所长陈受宜的话说,该中心将“有志于此的人才汇聚一堂”,解决了当时我国大规模基因组研究“人才匮乏”的窘境。
次年7月7日,国际“人类基因组计划”协作组公布了中国加入“人类基因组计划”的申请,并于同年9月1日正式向全世界宣布,这标志着我国成为美、英、日、法、德之外,第六个 “人类基因组计划”的参与国家,也是唯一的发展中国家。
人类基因组包含近2万个编码蛋白质的基因,由约30亿个碱基对组成,分布在细胞核的23对染色体之中。中国在“人类基因组计划”中负责测定和分析3号染色体短臂上从端粒到标记D3S3610间大约30厘摩尔(相当于3千万个核苷酸)的区域,因此被称为“1%项目”。
2001年8月26日,遗传所人类基因组中心暨于1999年9月9日成立的北京华大基因研究中心、国家南、北方基因组中心共同完成了“包干”区域任务——“1%项目”的基因序列图谱,相比国际同行,提前两年高质量完成任务。同年8月,国家主席江泽民接见了包括我国科学家代表在内的国际“人类基因组计划”协作组的各国负责人。次年,中国“1%项目”组被集体授予国家自然科学奖二等奖。
也许“1%项目”对整个项目而言它有些微不足道,但它的实施给我国基因组学发展所带来的意义却是重大的。同时,“1 %项目”也对社会公众进行了一次声势浩大的基因普及教育,为中国生命科学研究和生物产业发展开拓了无限的空间。
“加入国际“人类基因组计划”,可以使中国平等分享该计划所建立的所有技术、资源和数据,并使我国成为世界上少数几个能独立完成大型基因组分析的国家。”中科院院士、华大基因联合创始人杨焕明曾如是说。
2003年,距离发现DNA双螺旋整整半个世纪后,历时13年,耗资近30亿美元的“人类基因组计划”于2003年4月25日宣告完成。作为人类科学史上的伟大工程,它带来了生命科学的新时代,在发展过程中建立起来的基因组学、生物信息学技术对生物相关学科和产业起到巨大的推动作用,有关生命科学的新兴技术和生物产业如雨后春笋般涌现。
而中国科学家“抢”到的“人类基因组计划”1%份额,让这个人类科技史的重要里程碑上刻下了“中国”二字。同时,它还带动的中国基因测序技术从追赶实现并跑,并逐渐走向全球第一梯队。
通过参与这一计划,中国科学家得以在短时间内学习并追赶发达国家的先进生物技术,先后完成了水稻基因组、小麦A基因组、SARS冠状病毒的基因组研究,以及对熊猫、家猪、家鸡、家蚕等动物基因组的测序工作,使我国的基因组研究得以跻身世界前列。
同时,我国基因组测序产业规模与创新研究“比翼齐飞”。例如,产业方面,国内华大基因等以测序为主的公司在全球市场占有一席之地;学术方面,诸如中科院遗传发育所、北京基因组研究所、农科院基因组研究所等,成为我国基因组学原始创新研究、创新人才培养重要基地。
从30亿美元到300美元
DNA测序技术“高歌猛进”
人类基因组草图发布20年来,相关科学研究突飞猛进。基因组测序的成功,催生了许多其他规模化人类基因测序计划,如国际HapMap计划,旨在发现人类基因组中普遍不同的位点;ENCODE计划,目标是找出人类基因组中的功能元件;Proteome计划,是第一个国际人类组织/器官的蛋白组计划,也是中国科学家首次领导执行的重大国际科技协作计划。
不止如此,基因测序技术还在其他众多领域得到广泛应用,包括生物的基因组图谱绘制、环境基因组学和微生物多样性、转录水平动态响应及其调控机制,疾病相关基因的确定和诊断、考古学(古代DNA)、物种演化过程等等。
这一切得益于20年来基因组测序技术的飞速发展,带来的价格“断崖式”下跌。
“人类基因组计划”在1985年被提出时,可谓是一次“世纪拍板”。当时无人知晓测序究竟要花多少钱,于是按1美元一对碱基做的“拍脑袋”预算,总预算30亿美元。计划周期为15年,即于2005年完成。
当第一个人类基因组被完全解读后,科学界的普遍共识则是迫切需要新的技术革命。以更低的成本、用更短的时间和更高的效率来准确地测定每个人的基因组。如此,基因组学才有未来。
如今,自“人类基因组计划”以来,DNA测序技术的发展已经历4次历史性飞跃。
上世纪70年代桑格等人发明第一代测序技术后到上世纪90年代,科学家把多种渐进性的技术创新整合在一起,取得了革命性的进步。从最初的凝胶电泳法手动测序到90年代的毛细管电泳全自动桑格法测序就是一个极好的例证,最终成为绘制人类首个基因组图谱的基础技术。然而,这种技术测序耗时长、费用高,无法满足现代科学发展对生物基因序列获取的迫切需求。
第二代高通量测序是对传统桑格测序的革命性变革,一次运行即可同时得到几十万到几百万条核酸分子的序列,大大降低了获取核酸序列所需的成本。其打破了“摩尔定律”的电脑技术发展速度,使得获得基因序列所需的时间和资金成本直线下降。
例如,2007年5月,“人类基因组计划”完成4年后,“DNA之父”詹姆斯·沃森拿到了世界上首分个人基因组图谱。绘制沃森基因组图谱的“吉姆工程”前后只用了不到2年时间,花费仅200万美元。
2008年,全基因组测序的成本降至20万美元。到2010年,该费用已经可以控制在10000美元以内。而据NIH数据,到2020年,人类全基因组测序的成本已降低到1000美元以下。
今年6月初,华大基因全资子公司武汉华大医学检验所中标的“四川大学华西医院十万例罕见病患者全基因组测序计划采购项目”,标金额更是低至每例1348元人民币。这说明其在人类全基因组测序的成本控制方面已达到全球领先地位。
尝到“甜头”,科学家创新热情持续高涨,又发明了第三代单分子测序技术、第四代核苷酸测序技术,进行单条序列长度更长、更准确的测序。
正是基于四代测序技术的“接力赛”,人类基因组序列终于“补齐”,有了更完整的版本。而此前发表的人类全基因组序列都留有不少“缺口”或“空洞”。
近日,由加州大学圣克鲁斯分校的卡伦·米加和国家人类基因组研究所的亚当·菲利皮领导的“端粒到端粒”(T2T)联盟绘制的新版本基因组新版本,比2001年的版本增加了近2亿个碱基对以及2226个新基因,使人们获得了约30.55亿对碱基对的完整信息。这一结果填补了之前剩余的大部分缺口,是自人类参考基因组首次发布以来进行的最大改进。
据悉,最新的序列利用两种互补的全新的DNA测序技术推导而来。牛津纳米孔公司的技术允许更长的DNA片段以非常高的精确度进行测序;加利福尼亚的太平洋生物科学公司(PacBio)的技术则可以产生超长的连续DNA序列。这些新技术使得拼图片段可以长达数千甚至数百万碱基对,组装也变得更加容易。
正如2018年9月30日詹姆斯·沃森等人在《自然》杂志共同撰文所写的那样:“人们常常以为,是先有科学发现再有技术发明,科学发现和技术发明存在单向关系,其实不然。”
“很多科学发现都是技术发明推动的。比如,由于玻璃磨制技术的改进,发明出了望远镜,天文学才得以空前进步;再如,莱特兄弟发明了飞机,其后才有空气动力学。有了DNA测序技术的进步和工具的发展,基因组科学才有如此惊人的突破性发展。”他们表示。
从生物学到生命组学
生命科学的组学时代“曙光初现”
20年来,“人类基因组计划”所取得的划时代成就,给人类对疾病和物种演化的认知带来了革命性变化。
国家人类基因组研究院(NHGRI)主任埃里克·格林(Eric Green)从第一天起就参与了“人类基因组计划”,他曾想象有一天基因组学可能会成为临床治疗的一部分。“但我真的没想到这会在我有生之年发生。”在去年“人类基因组计划”启动30周年时,他如是说。
2010年,科学家怀揣了数十年的梦想成为现实。当年,罹患罕见致命性肠道感染病的6岁美国男孩尼古拉斯·沃尔克(Nicholas Volker)成为世界上第一个被基因测序技术拯救的儿童。基因测序发现他有一个出人意料的基因突变,并指出了一种治疗方法,从脐带血中取出细胞进行骨髓移植,取得了良好疗效。
这一奇迹给了科学家巨大的信心。近年来,又有多位地中海贫血、白血病患者受益于基因技术被治愈。这些成果向人们展示了基因科技造福人类的诱人前景。
如果说技术的更新换代和价格的大幅下降为基因测序“飞入寻常百姓家”提供了保障,那么政策支持就为基因技术行业的发展提供了红利。2015年1月底,美国宣布“精准医学计划”,目的是让所有人获得健康个性化信息。同年3月我国首次召开精准医学战略专家会议,则计划在2030年前投入600亿元加速中国精准医疗的行业发展。
在此背景下,医疗应用已经成为基因测序最大的增长点。在临床上,它被应用于生育健康、肿瘤个体化诊断和治疗、遗传病、传染病检测等方面。在肿瘤检测、个体化用药领域中,随着应用技术、数据解读技术的不断深入,基因检测市场发展空间越来越大。
我国庞大的人口基数也是发展医学基因检测产业的巨大优势。例如,华大基因前述基因测序项目的罕见病样本量高达十万例,是针对这一病症前所未有的检测规模。此外,近年来,我国还启动了聋病基因组计划、万人双胞胎基因组计划、百万人群基因大数据、十万新生儿出生缺陷筛查项目……这些项目将为实现国内疾病真正精准诊断提供重要支持。
“人类基因组序列就像化学元素周期表对化学一样重要,可以知道世界是由多少种元素组成。而基因组提供了遗传信息,人的生、老、病、死都与基因组图谱密切相关,其重要性不言而喻。”杨焕明说。
2021年2月11日,美国西北大学网络科学研究所亚历山大·盖茨(Alexander Gates)等在发表于《自然》的文章中,通过对1900至2017年间的704515篇相关科研论文进行分析后发现,得到“注释”的基因数量迅猛增加。自2001年开始,每年关于蛋白编码基因的学术论文数量在10000到20000篇,很多研究集中在诸如TP53、TNF 和 EGFR等“超级明星基因”上。这对深入认识重要的基因十分关键。
“人类基因组计划”还进一步确定了基因组中非编码序列的生物重要性。这些序列的改变不会影响蛋白的序列,但会干扰蛋白表达和调控的网络,进而影响生物学功能。
在2001年之前,明确某种药物全部蛋白靶点的概率不到50%。“人类基因组计划”完成后,美国每年通过的药物几乎都有清楚的作用靶点说明。
尽管如此,整体看,生命科学的组学时代才刚刚曙光初现,这场疫情也再次提醒我们:我们对生命的认识还远远不够。一方面,经过20年的研究,生物学家目前对定义生命的网络组织和动态有了初步的认知,但尚不足以充分理解任一系统。另一方面,“人类基因组计划”不仅促进了生物学和生物医学的发展,而且正在积极深化遗传学、生物化学、分子生物学和信息科学等多学科合作的“大科学”融合,共同构建生命科学的“大数据”时代。