自主超算集群技术助力前沿基因组科学研究
 
    该集群针对基因组学海量数据特点,尤其是应对新一代测序技术的高通量数据产出需求,全面采用新一代Intel至强4核处理器和开源的64位Linux操作系统,配合华大自主开发的面向新一代测序技术的管理和计算软件搭建而成。“有数据才是硬道理”,这是华大基因在基因组科学研究能够跻身世界前列的重要成功因素。该集群目前每天能处理6T的基因组数据,相当于每天能存储、分析3个人的基因组数据。在追求计算更快,处理更高通量的数据的同时,深圳华大基因研究院还和Intel合作,打造更加绿色节能的高性能计算机,目前每万亿次的功耗仅为8千瓦,比以前的大型计算设备降低了近10倍。在测试完Intel在中国仅有的6片新一代45nm低功耗CPU中的两片后,深圳华大更有信心在绿色节能的高性能计算上有所突破。

        该超级计算机集群已经出色地完成了炎黄1号的数据处理和分析的任务,为破解黄种人基因组,提高黄种人的健康水平起了重要的作用。目前,该集群不仅正在处理炎黄99的数据,同时还承担起大量国际合作科研项目的数据处理和计算任务,其中包括国际合作千人基因组项目,大熊猫基因组项目,生命之树项目和欧盟MetaHit肠道元基因组项目等。早在2005年,华大基因就开始了生物信息高性能计算集群的研究,项目被命名为BLC(Bioinformatics Linux Cluster,即生物信息Linux集群)。2007年初,深圳华大基因研究院一落户深圳盐田就启动炎黄1号项目的研究,为了保证项目的顺利进行,开始了一期的超级计算机集群的建设,设备6月中投入使用,计算峰值就达1.5万亿次每秒,存储达100T。9月初,随着炎黄项目进入最后的攻坚阶段,计算和存储能力告急。9月中旬二期设备一到位就开始投入使用,计算峰值提高到4.5万亿次每秒,存储规模达到300T。今年4月,熊猫基因组和国际千人基因组项目的启动,深圳华大基因研究院的计算和存储再次告急,7月初三期超算建设完成并正式投入使用,计算峰值达8万亿次,存储670T。 今年年底,随着生命之树项目和欧盟MetaHit等国际合作项目的启动,届时需要一套计算峰值达20万亿次每秒,存储规模达1P的超级计算机集群,继续为世界前沿基因组科学研究“计算到底”。