“大数据”革新医药研究——运用大数据应怀谦恭敬畏之心

医药产业的发展进入大数据时代,在近日召开的第十七届北京国际生物医药产业发展论坛大数据时代的医药产业创新研讨会上,与会专家共同探讨了大数据时代医药研究的困难、问题、发展方向,强调要充分利用好大数据所带来的机遇,推动疾病研究、药物创新和临床个体化治疗。

突破传统思维模式

怎么算清楚池子里面有多少条鱼?

中国科学院院士、中国科学院生物物理研究所陈润生教授认为:生物信息学的相关数据就是典型的大数据。生物信息学数据的4VVolumeVarietyVeloctyValue)特征,完全符合大数据的特征。

但是,大数据下的生物信息学发展也面临困难。陈润生介绍,一是量大。除了传统的基因组数据之外,包括转录组、蛋白质组、代谢组、表观遗传组、结构组等等一系列由基因组派生出来的数据,已经达到海量,而且越来越复杂。华大基因研究院首席运营官尹烨也表示,生物圈系统总量的信息,估计至少达到1060数量级。

但是,可供研究的样本量又是非常小的。陈润生谈到,要得到各种疾病患者的样品,实际上取样非常困难。比如肿瘤取100例已经很不容易,有些特殊肿瘤甚至是非常低频的,取10个、20个都很困难。如何用小的变量来研究极大的可采集的数据空间?如何通过生物信息学的方法来弥合数据量和样品量之间的极端悬殊差异?陈润生说:如果采取传统建模的办法,是非常困难的。

陈润生还指出了第三个困难:在所采集的少量样品里,即使是患者的样品,在基因组水平或者其他组学水平的变化频率也不是100%,往往很多变异在基因组上是低频出现的,即有效事件频度低。实际上往往我们采集的样品不包括任何有效变异,你做了半天那些东西都是假象!如果不了解自己感兴趣的数据是如何获取的话,即使有这么多的数据,也很难得到跟人类健康和其他应用目标相关的有效、可靠的变异。

陈润生表示,大数据时代的到来,对生物信息学来讲是一件好事。但是,生物信息学数据的特征和面临的困难决定了不能采用传统的处理所谓常规大数据的方法,而需要改变思维。正如大家所知道的,外显子测序分析方法在国际上还不成熟,现在一个明确的目标就是要发展其新的算法,即把整个外显子作为一个独立单位来看待它跟疾病的关系。大数据未来的发展,一定会为生物信息数据的处理带来新的方法、技术,使其更加容易并符合实际要求。

尹烨也表示,大数据促使科学研究的方法不断进化,从实验科学到理论科学到计算科学,再到连续密集数据分析,传统的靠运气和努力的假说研究模式已然不能适应。数据爆炸时代如何实现精确打击?靠的是思路和规模,不要随机样本,而要全体数据。尹烨举例,怎么算清楚池子里面有多少条鱼?在大数据时代,简单的方式是把水放净直接数,这是最准确的统计学方法。只要把数据收集全,然后进行聚类分析,其义自现。据悉,华大基因过去21个月在《自然》、《科学》发表了62篇文章,大部分基于大数据。

挖掘数据共性特征

对于所获得的和人类健康相关的数据,其共性是什么?个性是什么?

谈到疾病相关组学数据变化的共同性和特异性,陈润生认为,现在进入了个体化医疗时代,可以根据个人基因组的不同而量体裁衣2012年美国以双胞胎为对象进行的试验发现,即使是双胞胎组学的表现,跟疾病相关的也不完全相同。这个结果强调了疾病的个性化,但是,也有很多研究结果支持某些疾病的共性特征。陈润生以他所从事的非编码肿瘤谱的工作进行了说明:目前已经发现了很多肿瘤谱,虽然每个人的谱差别很大,但是研究又说明,即便每个人整个非编码转录的谱不一样,但在若干种肿瘤中有共同的谱,也就是说共性和个性都存在。目前比较热门的全基因组关联分析(GWAS)方法就是希望找到疾病的共性,大量的结果表明确实存在一些疾病的共同变异,甚至共同的点突变和某些疾病紧密相关。

对所获得的和人类健康相关的数据,其共性和个性的界限是什么?陈润生认为,个性是有的,每个人都有差别,但是如果说每个人跟每个人都没有任何共性的话,将来医药无法发展。陈润生强调,共性给普遍治疗提供基础,个性则使得治疗在共性的基础上达到更佳效果。是不是共同的疾病在组学上有共同的变化,是不是共同的疾病对每个人都有特异,都值得深入研究。目前我们一定要利用好生物信息学的数据,注意发掘疾病共性的数据特征,同时要考虑到个性化的数据,掌握好两者的辨证关系,这样才能够更好实施对某个个体疾病的治疗。

陈润生还呼吁要关注广大的非编码基因序列。过去人们都关注编码基因与疾病的相关性,但编码基因只占人类遗传密码的2%,其余98%都是非编码序列。

推动转化医学研究

如此多的基因被测序之后,能够解释疾病的不到20%,在大数据的情况下应该重视什么?

生物芯片北京国家工程研究中心转化医学研究院院长孙义民认为,在数据产出和挖掘之后,为了人类健康,大数据时代更应重视数据的利用。

诺奖获得者利根川进博士说,人类除外伤以外的所有疾病都与基因受损有关。孙义民认为,大数据时代真正要做的不只是单独一个基因,更需要的是多层次的生物信息的整合,从遗传到表观遗传,从DNARNA到蛋白,通过疾病易感位点/发病机制研究、肿瘤标志物研究、调控网络研究,开展转化医学研究,去解释疾病的生理、病理过程,最终为人类健康服务,为个体化医疗服务。

孙义民举例介绍了大数据转化研究的一个实例。由于东西方种族的不同,基因与疾病的关系存在一定差异,只有中国人自己的个体遗传检测数据分析系统才最适合中国人。他们针对国际上发表尤其是中国人发表的疾病易感基因和传统致病位点进行了评估,用了3年时间针对中国人群设计开发了疾病预警专用生物芯片,建立了完备的疾病与基因关联数据库。应用这9大类70多种疾病的易感性检测的基因芯片,可通过内因(基因检测)去改变外因,指导后续的健康管理,从而避免和降低得病风险。

我的基因我知道,我的基因我做主。尹烨则表示,多组学联合分析为治愈疾病助力。他们通过持续14个月的综合性个人组学监控(IPOP)联合基因组、转录组、代谢组和自身抗体组,及时预测出患2型糖尿病的风险。在患者血糖急剧上升后及时进行饮食和锻炼等生活方式的改变,在半年内降低了血糖,治疗了糖尿病。而一滴血中也蕴含着大数据,可以轻松得到每个人的各种组学信息。尹烨谈到,如果是孕妇,在第5周就能捕获到胎儿的有核红细胞,从而获得胎儿全部的遗传信息;如果是肿瘤患者,通过检测血液CTCs细胞,可比CTMRI检查提前数月发现肿瘤转移及复发。

大数据时代的医学研究需要和医院、专家合作,进行转化医学开发。我们的需求从临床中来,通过大数据进行产品研发,通过工业进行产品定型和申报,在政府支持下应用在临床。孙义民谈到了在我国进行转化医学实践的体会。

尹烨则强调,科学再先进,我们能收集和处理的数据也只是世界上极其微小的一部分,我们使用大数据的时候,应当怀有谦恭和敬畏之心。

本文转载自中国医药报,记者白毅