“2014 WE大会”在北京举行——华大基因研究院院长王俊:破解基因信息 掌握生命规则

2014年11月8日下午,腾讯公司举办的“2014 WE大会”在北京举行,华大基因研究院院长、本届WE大会基因科技领域的代言人王俊以《生命的语言》为题,和在座的嘉宾一起分享了阅读生命之书的价值和方法。 






王俊院长在大会上指出,人的生命本身可以看成是数字化的,因为在基因里蕴含着很多信息,一旦掌握了信息的规律,会对人类的生命、健康有很大的帮助。 


“做了20多年基因研究,觉得上帝的语言和生命的语言其实是一套语言”。在科学家眼中,主宰生命的,就是身体里那些聪明的狡猾的自私的基因。我们的生与死,出生缺陷和肿瘤疾病,都在这看似小小的基因组合中。 


对于未来,王俊院长提出这样的畅想:器官坏了,用3D打印的方式做出来;希望青春永驻,就把此时此刻的生命信息保存纪录下来……这些都可以通过破解基因信息实现,而这也意味着我们掌握了生命的规则。 


据了解,作为中国连接世界的跨界创新平台,WE大会每年从全球精选12场演讲,邀请多位互联网思想家、前沿创新项目团队进行现场互动和分享,希望启发人们去创造、创新、探索改变未来的一切可能性。 


附  华大基因王俊:破解基因信息 掌握生命规则视频 

 演讲全文: 

《生命的语言》 王俊 


我也有一个梦想,更好的理解生命的语言。 


今天非常高兴听到那么多有意思的讲座。很多讲座在讲计算机,有一些讲座在讲人机互动。我们今天还听到了更多外太空的事情。 


我只想讲一件事,我只想讲生命,回到人自身,回到我们自己。 


我演讲的题目来自于一本书的名字,这本书的作者是现任美国国立卫生院的院长Francis Collins,他是人类基因组计划的首席科学家,他还是一个基督徒。他这一辈子写了两本书,第一本书叫《生命的语言》,第二本书叫《上帝的语言》。这两本书都有中译本,大家感兴趣的话可以去看一下。看完这两本书,经过了近20年的基因研究,我越来越觉得这两套语言也许是一套语言。 


当我们想起语言的时候,我们当然可以想起唐诗宋词,做计算机的人,也许会想起C语言。那么生命的语言是什么呢?生命的语言到底有哪些特质,有哪些特质我们可以去理解,我们可以去应用。 


生命本身是数字化的。很有意思的是,当我们提起数字化,往往把它变成一种虚拟的东西,我们想不起来它是什么,我们很难把一个数字化的东西和一个活生生的人联系在一起。其实,在小到一个纳米级别的细胞里面,在每一个毫秒级别的生命过程,比如说一个蛋白质的折叠,一个激素的生成,所有的这些事情,都是由数字化精确调控的。这种精确调控的数字化过程,体现在生命的时间轴,也体现在生命的空间轴上。这是非常有意思的。如果生命本身是数字化的,如果我今天在这做演讲,我的每一个动作,我的每一个感情,如果都是带有数字化的特征,那我能不能有什么方法,去找到这个数字化的载体? 


有意思的是,生命的数字化信息,是传承,我们身上得来的DNA,是从父母来的,是从第一个细胞来的。第一个细胞里面,只有精子和卵子结合生成的受精卵。精子里面只有DNA,当然还有些能量物质。卵子里面还有些营养物质,所有的这些DNA,对于人来讲,是30亿个字母,这30亿个字母,蕴藏着人的所有的、未来的各种各样的可能性。而这样的一种生命体的生物信息的载体,就是在几十年前发明的双螺旋,那个DNA。也许未来的存储介质不应该使我们见到的硬盘、磁盘、光盘,也许应该是DNA。在只有间隔0.34纳米的字符间距里面,在只有1.5个皮克的DNA里面,蕴藏着30亿个字母。我们可以想象,我们可以把全世界的博物馆、图书馆所蕴藏的信息放在一个巴掌大的DNA载体里面,而且这个DNA载体可以不用担心,它可以一直维持上万年。 


谈到语言,它就有一种模块,就像我们读任何一本书它有单词一样。生命的语言的模块就是基因,而所有基因的组成单位是基因组。这个基因组是生命本身的预设程序。 


往前追述上亿年,当第一个基因产生的时候它是自私的,它希望不断的复制自己,它希望不断的扩张自己。走着走着,它突然发现,我一个基因也许不够,我需要联合其他的基因,所以很多很多的基因联合在了一起,选择了不同的基因的组合。物种,我们现在看见的大千世界的植物和动物,也许只是基因为了繁衍自身的一个载体。所以在我们自己的身上,看见了线虫基因的影子;在我们自己的身上,看见了老鼠基因的影子;在我们自己的身上,看见了猴子基因的影子。而所有的这些基因的不同组合,是谁来测试它这种组合是不是适合呢?是我们生存的这个环境。我们生存的这个环境告诉它说,这个组合是好的,它拥有更多的机会,去传递这个组合。 


对于人来讲,即使是一个物种,它仍然有这样的变化。这种变化,所谓有性繁殖,男人女人生这个孩子,这是一种基因的组合。我其中的一半和我夫人其中的一半组合起来,生了一个孩子。同时这个孩子和父母有60~100个基因的差异,这种差异,每一代都产生着,而每一代的这种差异又都受着环境的约束。所以这样的东西最终形成了我们对各种环境的适应。比如说西藏人,为什么说西藏人会对高山适应,为什么汉族人会不适应,是因为在其中的有一代,我们最近做出来,是第二次走出非洲的丹尼索瓦人,这些人身上有一些基因片段它是可以适应高原反应的。而这样的一个基因保存在了西藏人身上,并且扩散开来。如果我们在座的每一个人基因全部都测定了,在你的基因的30亿个字母里面,记录着什么时候这一个基因,在什么时候的哪一个时间段通过了什么样的变化变成了你现在的样子,全世界的人类迁徙史可以因此重写。我们可以知道到底曹操墓里面那个DNA是不是曹操,我们可以知道客家人到底是不是中原人的后代。当然我们现在已经知道了很多东西,比如说中国70%的汉族男人其实6000年前只有3个人,一个炎、一个黄、一个蚩尤,在你的DNA里都写着。每一个人都会有他自己的历史,每一个人的基因都蕴藏着这样的历史。 


基因组的程序告诉你什么?除了告诉你怎么进化来的,告诉你说在一个生活的环境里面,它会怎么去反应。它不会告诉你今天晚上吃什么,但一定会告诉你今天晚上吃了什么你的身体会有什么样的反应。而这样的一套预设的程序给你的生活、给你的未来的生命轨迹增加了一个边界,生活的环境在变化,基因的程序也在变化。 


有时候它是不完美的,因为这种变,必然会有代价。这种变让我们变得更加适应生存的这个环境,但同时它也有出错的时候。当它出错了,就是我们看见的各种各样的疾病。最简单的一种比较严肃的错误,它会发生在你很小的时候,就面临生命的威胁。昨天我参加了世界罕见病学大会,是在深圳召开的,我们前些日子看的那些(为)渐冻人浇冰桶的事实上都是一些罕见疾病。听起来这些罕见病很罕见,但如果把它加起来占到我们整个人群人口的5%左右。这些东西能不能够预防?自然界没有那么聪明,它并不是犯一次错就不再犯了,它经常犯,所以你可以利用这样的错误,不断的去做检测,在很早的时候发现这样的错误并且预防这样的错误。 


在你的生命周期里面,你会经历疾病。为什么会有疾病?你身体里的每一个细胞在不断繁殖,在每一次的繁殖过程当中你的基因都在变化。如果你太阳晒多了你就容易得皮肤癌,如果你在北京的雾霾天待久了你就容易得肺癌,如果你HPV感染,病毒感染你就有可能得宫颈癌。当然还有各种各样的环境因素和风险因素。在这样的环境压力和风险压力下,你的细胞程序发生着变化,这些细胞程序发生变化以后,有些时候虽然获得了它自身的适应性,不断地扩张,但在器官上却形成了肿瘤,这就是我们说的癌症。癌症的这种变化从出生的第一刻就已经开始形成。所以有人说因为你活得越久,身上积累的基因突变越多就越有可能有肿瘤,这种推论是正确的。 


所有人都想改变世界,所有人都想说我想好好把控自己的健康,但是在改变之前,我觉得你们要首先理解这个世界。如果我们真想改变生命本身的运行规则,我真想我自己不要往糖尿病走,走一个健康方向,你首先要理解这件事情。而你的理解在用计算机语言来讲是一件非常有意思的事。我们想象一下如果生命的语言是30亿个碱基字母的简单罗列,而它的程序运行结果是你得了糖尿病,或是我个子高,或者我很愚蠢,所有的这些东西,从那30亿个字母,推断到这样的一个表型,这个之间到底发生了什么?这种程序本身的编译规则和编译原理到底是什么东西?这样的一个公式能怎么撰写,怎么从基因最后变成那样的表现型? 


其实有一个非常好的方式。我们去想象一下,如果全世界只有一本书,这本书什么都没有,我也不明白它什么意思,后面全都是ABCDEFG,我也分不清楚单词我也分不清楚东西我怎么去读这本书呢?我不能理解。但是如果全世界有70亿本这样的书,而每一本书都告诉你不同的程序变异结果。如果我把全世界70亿本书的字母全部读出来,然后再把它的编译结果念出来,我是不是有可能在中间构建某种模型,让它去理解这当中的程序运行规则?这个就是未来的基因和健康的大数据。每一个人的大数据是很多的,每一个人在不同环境下的反应是很多的,所以我们要不断的试错,我们不断的让他吃不同的东西,我们不断的让他去登山,没事让他去跑个马拉松,你看他身体是个什么样的反应。把所有的这些反应数据全部记录下来,形成一个巨大无比的大数据。在这里面的关键技术就是读,如何用最便宜的技术把这些技术读出来。 


我不知道在座的各位,如果你被offer(提供)一个3000块钱人民币把你的基因全部都测完我不知道你会不会做你自己的基因,如果愿意做的可以举个手我看看。哇很多……如果我们考虑一下04年我们在人类基因组计划的时候要10亿美金做一个人类基因组,现在是1000美金,(这样的速度)已经比摩尔定律厉害得多。如果我们再想一想2024年的时候1美金一个基因组,1美金就够了。明年华大就可以推出3000块钱人民币(测基因组)每个人都可以做。但什么时候不要钱?我们在互联网的社会我们喜欢不要钱,我也喜欢不要钱,我也喜欢给所有的人基因都测一遍不要钱,为什么呢?因为我相信,未来它的价值远远大于产生这个数据的成本。当这一天到来的时候,当这个交叉点到来的时候,你们在座的各位可以排着队去华大免费做基因检测。 


也许生命体是复杂的。生命体复杂到一个什么程度呢?我本人认为,个人本身,是不可能真正理解生命的全部,是真正不可能完全理解生命的运行规律。所以我首先分开两部分,一个是所谓的机器部分,我的机器部分就是我的身体里面各个器官的运行;还有一个是所谓灵魂、意识。我把这两个分开,我们先讲机器部分。如果我们真的拥有所有程序的代码,和程序的结果,我们有没有可能建立一套真正的人工智能体系?如果有刚才IBM的Watson那样的东西,把所有的大数据量的东西通过某种机器学习的方法,在一个百万人、千万人的数据库基础之上建立起一套自学习的模型,形成一个水晶球,这个水晶球就像你们每次去问你的未来往哪走一样,这个水晶球当你把你自己的数据放进去的时候,你会去问我的明天会走向哪。如果我的生命是一个旅程,这是我的生命程序,我能干些什么。这个人机交汇点即将要到来,我相信在未来的5~10年里面,会让我们所有的个人,能够更加和谐的生活在所谓基因程序的边界里面。 


当你真正理解了基因本身,和这个基因程序本身的边界,当你理解了所谓的风险因素之后,你可以试图去管理好你的风险因素,你可以不要生活在北京,当然你没办法(笑)。你可以各种方法去选择你的饮食,你可以去选择自我生(活环)境,来形成与基因某种和谐生存的关系。 


但是你会说,如果我没办法,我这个基因糟透了,我能不能想点招呢?我能不能改?是可以改的。基因既然就是在30亿个碱基对里的字母,为什么不能把它改掉呢? 


艾滋病。德国有个第一例被治愈的艾滋病人,非常有意思,他自己本身又是白血病,简直是同一个地方两次闪电。结果他接受的骨髓捐赠体是一个天生的艾滋病毒的免疫型,结果他艾滋病也好了。那我们就在想,能不能把艾滋病人体内的干细胞提出来,把这个基因改一下,再把这个干细胞搁进去,这个艾滋病是不是就好了呢?已经有人开始这样的尝试,而且已经有成功的案例。 


3D打印,如果我这个器官坏了,我这个机器部分坏了,我能不能用细胞,用3D打印的方式把它重新做一个器官来、重新安上呢?这已经很容易了,我们现在猪的肾都可以移植到人身上,何况是3D用你自己的细胞打印出来呢? 


还有人说我愿意青春永驻,青春永驻是什么意思?青春永驻的意思是说把你此时此刻的生命信息保存记录下来并且用在未来。你能不能这么做呢?我可以啊。我把我的细胞、各种各样的样本全都留在那。我的样本留在那就是把我的信息留在那,我信息留在那就有可能在未来重新利用我的信息,这就是我们能够看见的,你对于程序的改动和未来的可能性。 


但同时我们要问我们自己一个哲学问题:我们是一个有意识的人类,当所有的自私的基因形成了一个组合,并且把这样的一种组合交给所谓的有意识人类的时候,这个有意识的人类能否真正管理好自己的基因?如果每个人都去改改基因,生的孩子都高一点,可能姚明会变成我们这个世界最矮的人。所以如果当我们每一个人都拥有对这个程序理解的权利或者叫力量的时候,我们能不能学会去管理好我们自己,用我们自己真正的意识层面的事情来管理好我们的机器部分。 


Anyway,我认为生命性本身,是一种生命逻辑的展现,是一种数学逻辑的展现。但是我们想一想,如果哪一天,我们的人工智能,我们自己创造出来的那个Watson还是Crick(音),还是whatever,如果那样的一个人有了逻辑呢?如果他理解和掌握了生命本身的规则呢?我们自己是变成了一个AI的一部分,还是AI变成了我们的一部分?如果我们在座的每一个人都可以通过网络,通过腾讯,通过Wechat,可能有Wechat update version,通过所有的东西把大家的智能都联系在了一起,然后有一个人工专家——注意这其中有一个区别,每当一个孩子出生的时候,他所有的东西全部都清零了,重头开始学习起。但机器不用,它可以一直不断的学习。如果真的是这样,如果这个社会真的可以把所有人的智能和一个人工智能联系在一起,当一个人类的智能和一个人工的智能交汇的时候,当人机的界限真正消失的时候,当人可以去理性地选择的时候,我不知道AI究竟是人的延伸,还是人是AI的一部分。 


当然最终我想跟每一个人讲的是,健康的长命百岁不是简单的感性的意愿,我当然是非常欣赏那个emotion——我要健康我耳朵竖起来(之前Tomonori介绍的情绪感知头箍necomini),我相信它不是一个感性的意愿,它应该是一种理性的选择,而这种理性的选择,它的选择权利和它的知识在你们在座的每一个人手上。 

谢谢大家!