高性能计算支撑生物科研和产业发展 在生物领域大显身手

2011726日,据国际权威期刊《自然》杂志上的新闻《基因组学巨头提供数据服务》(“Genome giant offers data service”)报道,全球最大的基因组测序机构之一——华大基因正展望于云计算。华大基因宣布将在今年计划推出生物云计算服务,希望通过产品创新,更好的满足各大科研机构及生命科技行业对信息能力的需求。届时用户可以通过互联网远程操作进行测序数据的处理,随时随地获取生物信息分析资源。该报道中提及,由于DNA测序技术成本的下降幅度远远高于测序数据存储成本,云计算已成为基因组学研究领域中的一个日趋重要的工具或服务。目前一般的研究实验室均缺乏存储、计算资源和处理当前庞大基因组数据的技术,华大基因提供的云计算服务将为此难题提供一个解决方案。就目前而言,华大基因的云计算服务主要应用于全基因组组装。在未来,可提供其他生物信息分析软件,如搜寻基因组中的单核苷酸多态性位点,寻找基因组中重复或缺失的大片段等。在国际上,华大基因并不是唯一一个开展云计算服务的测序中心,但华大基因将测序服务与内部云计算相结合,突出了其“一站式”服务的优势。

 

与此同时,华大基因信息生产中心620日荣获由国际数据公司(International Data Corporation,IDC)在2011国际超级计算机大会(International Supercomputing Conference,ISC11)公布的首届“高性能计算创新优秀奖”(HPC Innovation Excellence Award),寓意着深圳华大基因高性能计算和应用能力已经处于国际先进水平,引领国内生物领域高性能计算的行业发展。

 

话说“高性能计算”

高性能计算(High Performance Computing, HPC)可以为企业、国家等创造的价值是非凡的,它是计算机科学的一个分支,主要是指从体系结构、并行算法和软件开发等方面研究开发高性能计算机的技术。目前,HPC不仅可以用于科学研究、航天国防、气象预报、石油勘探等,还可以应用于信息化、教育、企业等更广泛的领域HPC的应用需求在深度和广度上都面临蓬勃发展。

 

目前,高性能计算的使用对象主要包括科研机构、研发中心、金融财务等具有大量并行运算需求的大型机构和企业应用。通过使用高性能计算能够大大提高系统性能,帮助企业机构提高生产效率,带来长远经济效益。随着分析数据量的日益巨增,更多的科研项目采用高性能计算。在现今生物领域,随着测序技术的进步和成本下降,更多的基因组学相关数据应用到生物研究分析当中。目前,大部分科研机构主要依赖于外部的高性能计算实验室,或面对大众的云计算服务平台如亚马逊、IBM、微软等。华大基因一直致力于发展高性能计算,投入高性能设备的组建,开发和优化相关分析软件,为处理海量基因组数据寻找量身定做的解决方案,并成立华大基因信息生产中心。

 

华大基因的高性能计算主要应用于华大基因的科研项目并支持相关产业发展。HPC作为华大基因的一个重要平台,支撑着华大基因的整体发展,在《GigaScience》杂志、国家基因库等重大发展项目中担任核心支撑角色。华大基因曾参与的多项重大科研项目,如大熊猫基因组、第一个亚洲人基因组图谱等科研项目,和其无创产前基因检测、人类白细胞抗原(HLA)高分辨基因分型等健康检测服务均是在高性能计算的支撑下,进行大量基因组数据分析,并在相对较短的分析时间内提供准确的结果。不仅如此,华大基因还通过HPC技术为其合作伙伴提供在动植物基因组学、转录组学、微生物基因组学、宏基因组学、表观组学、复杂疾病基因组学、蛋白组学、药物基因组等领域的研究支持。

 

华大基因高性能计算的应用和经济效益

华大基因研究院通过自身的努力不断提升其高性能计算能力,为基因组学研究带来创新解决方案,在加快基因组学相关科学研究进展和商业化发展的同时大大提高经济效益。通过软件优化和使用通用服务器代替性价比较低的小型计算机,在硬件成本、数据存储和分析能力取得突破性的成果。相对于过去需要花高达千万美元的高性能服务机器,现只需投入千万人民币购买一台性能更好的通用服务器,硬件成本可节约1020倍。例如高性能计算在并行拼接的应用,由于拼接对内存和机器本身的要求非常高,而同类型机器的价格较为昂贵,华大基因通过优化软件从而将机器成本节约近二分之一。不仅如此,华大基因通过软件优化提升机器性能,普遍提高六至十倍性能并减少约10分之一的运营成本,使庞大数据的分析时间可缩短至数天或数小时,大大提高时效性和工作效率,降低人力,机器和运营的成本,同时也更有利于高性能计算的普及和推广。

 

华大基因的HPC应用研发涵盖了应用软件系统软件和云计算三个领域。在计算软件方面,华大基因不断开发新的算法,紧密跟踪图形处理器(Graphics processing unit,GPU)计算等先进技术,在提高计算能力的同时降低功耗,力图做到绿色高效能计算。华大基因世界上最大的GPU生产商英伟达(NVIDIA)成立了联合创新实验室,积极推进创新软件开发,目前正在研发的一系列计算软件,其性能都有数量级的提高。系统软件方面,正在研究一系列的面向大规模数据和计算的中间件和管理系统。通过云计算技术,将生物信息学特有的海量数据和计算结合起来,形成了具有特色的生物信息云计算平台,在不久的将来就会开放给全球科研人员。

 

目前,华大基因信息生产中心已开发20多种创新产品和服务,其中包括:生物信息分析平台—BGICloud,生物信息分析虚拟机BGI vLab,生物数据库中心CLiMB。开发的生物信息学应用包括:De Novo sequencing(从头测序),动植物基因组组装,大规模基因组重测序,遗传关联研究,基因表达谱分析,全转录组组装,miRNA检测,CHIP-Seq研究,DNA甲基化检测,宏基因组学分析。华大基因在高性能计算方面开展多元化研究,包括GPU应用研究、大规模并行计算研究等,取得了很好的成果,并且与多个科研机构开展研究工作,其中包括香港大学、香港科技大学、香港浸会大学、中国科学院深圳先进技术研究院和中国科学院北京计算技术研究所等合作单位。

 

华大基因在其75日举办的亚太生物信息技术峰会(Bio-IT APAC Conference & Expo 2011)上发布了一系列生物信息学软件,其中包括两个基于云计算的新软件HecateGaea。这两款新软件主要应用于新一代测序数据软件分析服务,为基因组从头测序和重测序提供弹性计算解决方案。华大基因的计算集群上均提供HecateGaea的软件服务,使用内部集群可同时减轻网络的访问负担。Hecate是一个主要基于Hadoop平台map/reduce框架实现的分布式基因组从头测序数据并行组装软件,依赖于多集群节点的并行计算和分布式图算法能够在组装过程中对因为杂合位点和其它一些干扰因素引起的tip,tiny repeatbubble等结构进行有效的剪枝和去噪处理进而实现对一些常见物种数据的分布式并行组装。Hecate服务分析将大大提高降低成本和缩短所需时间。例如在单个高性能服务器上运行SOAPdenovo组装软件,花费70小时,获得80%的基因组覆盖率,硬件成本约15万美元。Hecate在使用96核的普通服务器的集群时,花费42小时,基因组覆盖率提升到84%,硬件成本可降至约6万美元。Gaea是一个基于Hadoop streaming框架实现的分布式基因组重测序数据并行组装比对软件,可以将进行比对分析的SOAP2BWA等算法进行并行化处理。最新版本的Gaeav1.2,相对于单核运行时间而言,在使用100核计算集群时,并行化的SOAP2BWA速度分别提升了75倍和100倍;使用400核计算集群时,提升速度分布为300倍和346倍。在性能、速度、成本等方面不断优化。

 

生物技术研究发展史上的一个新的里程碑  

面对在基因组学研究中分析处理的数据量的迅猛飙升,华大基因与众多生物企业和科研机构面临着强大的存储和分析需求。华大基因在HPC软硬件系统上加大了各种资源的投入,建立了具有自己特色的云计算系统以及相应的运行、管理和研发队伍。主要目标是以更低的成本更高效地完成大量的数据处理计算,通过云计算平台,与全世界的科研人员共享拥有的基因数据和软件系统,帮助他们更快更好地进行研究工作,促进以基因信息指导临床诊断和治疗的贯穿应用。

华大基因目前拥有的测序能力相当于一天可以获得一百三十人的基因组数据,每天新增原始数据就有近10T之多。华大基因从早期每天测序数据产出量500G到现今的10T,其产生的海量数据对存储、计算机性能等方面以每12-18个月10倍的速度在增长,带来巨大的挑战为支撑华大基因各个产业体系的发展和各重大科研项目,华大基因信息生产中心正不断地在高性能计算领域内开发可以解决生物信息产生的海量数据方面的硬件和分析软件。华大基因与众多世界一流的IT供应商合作,采用最新的高性能设备,包括大量的超高配置节点,刀片服务器,用于完成大型生物信息分析工作。华大基因目前在在深圳香港北京杭州武汉拥有数个大型生物信息学超级计算中,存储系统超过十个PBpetabytes),总计算能力为 156Tflops现在正向1000T flops(即1Pflops甚至更高的计算性能快速前进(在620日,ISC11发布了世界超算500强,其中名列第一的是日本超级计算机,每秒计算能力超过8.774 P flops,国家超算中心的天河一号名列第二,每秒计算能力达 2.6 P flops其中,位于深圳和香港的集群的峰值计算能力分列国内生物信息领域第一和第二位,该集群已成为国内乃至国际生物信息学界新的性能标杆和生物技术研究发展史上的一个新的里程碑。

目前华大基因计算平台总内存容量已达到33TB,总存储能力已达到12PB,并将在年底达到20PB,甚至更高。在强大的计算平台上运行着一系列复杂的软件,不断揭开基因编码生命的奥秘,解答遗传密码的起源进化和基因功能表达等挑战性的问题,为人类的健康和进步提供强有力的保障。


更多信息:

国际权威期刊《自然》杂志新闻《基因组学巨头提供数据服务》(“Genome giant offers data service”)报道

http://www.nature.com/news/2011/110726/full/475435a.html