第三届华大基因生物信息软件及数据发布会在香港九龙成功举行——大科学大数据时代袭来,迎接信息科学发展挑战

20121128日,第三届华大基因生物信息学软件及数据发布会在香港九龙成功召开。在本次发布会上,华大基因发布了其关于海量基因组数据分析、管理和传播的最新软件及流程,例如SOAPhecate.v2.5SOAPgaea,以及最新升级的基于云计算的生物信息分析平台“EasyGenomics”等。此外,大数据期刊《GigaScience》也推出了其数据库GigaDB的升级版本及最新开发的基于Galaxy工作流程的数据分析平台。

 

基因组学和新一代测序技术(NGS)引发了生命科学领域的一场巨大变革。随着DNA测序成本的不断下降,新一代测序技术产出的数据量正在以史无前例的速度增长着。在“基因组大数据”时代,处理、存储和共享如此海量的数据信息,已成为当前生命科学研究的重要瓶颈。

 

为了能够高效地处理海量基因组数据,华大基因充分利用分布式计算的优势,开发了一系列基于映射/化简框架的云计算软件,并搭建了高性能绿色云计算平台。其中,SOAP-HecateSOAP-Gaea是华大基因绿色云计算设施的重要组成部分,二者分别用于基因组的从头组装和重测序数据分析,都具有灵活且扩展性强等特点,并且已成功在临床和生物学研究中得以应用,具有快速、高效和低成本等优势。

 

发布会上,华大基因生物信息产品部经理李艳介绍了最新版本的基因组组装工具SOAP-Hecate v2.5。她指出:“该软件不仅能够输出线性化序列,同时也是一种灵活度很高且便于使用的平台,可用于进行一些复杂和特殊基因组的研究。SOAP-Hecate v2.5的可扩展性使得研究人员可以通过选择不同的cluster大小来控制组装时间,其能够在两天之内完成一个人类基因组的组装工作。”

 

同时,李艳还介绍了SOAP-Gaea在遗传学研究中的应用。她指出:“新版本的SOAP-Gaea能够完全整合到计算流程之中,用于基因组变异检测,从而提高分析效率。目前,在癌症研究中使用SOAP-Gaea,能够使分析时间从两周缩短至两天。”

 

EasyGenomics——基于云计算的新一代生物信息分析

 

“我们的目标是使NGS分析更简单、更快捷,并且结果更可靠。”华大基因云计算平台产品经理徐兴表示。在这次发布会上,徐兴向大家介绍了EasyGenomics及其优势。他讲到:“EasyGenomics是一种基于云计算的用于NGS数据分析的生物信息分析平台,它扩展性极强,集成了华大基因最先进的技术和平台。通过这个优秀的平台,研究人员便能可随时随地处理信息资源。”

 

徐兴还表示:“EasyGenomics将科研人员从海量NGS数据处理的沉重负担中解放出来。”随着测序价格的不断下降,海量的NGS数据也随之产生,华大基因平均每天所产出的数据量就可达到几个TB。如此海量数据的处理成为研究人员揭示生命奥秘的巨大障碍。徐兴表示,“正是在这种背景下,EasyGenomics应运而生了。”

 

根据徐兴的介绍,基于华大基因的云计算设施以及领先的Aspera fasp file传输技术,EasyGenomics 能够提供一种基于SaaS(软件运营服务模式)的针对NGS数据生物信息分析途径。用户仅需一个标准的浏览器便可在全球任何角落访问到EasyGenomics服务。通过EasyGenomics,用户可以摆脱各种繁冗的资源维护与管理以及抽象的命令行工具。徐兴认为,“EasyGenomics将使得生物信息分析过程像网上购物一样只需要点击鼠标即可。”

 

同时,EasyGenomics还提供了高速的数据传输途径,其速度能够达到普通FTP10-100倍。这种兼容性很强的平台,整合了当前各种流行的分析流程,如全基因组分析、外显子测序分析和RNA-seqde novo组装,以及小RNA数据分析工具。同时,还提供了大量的质量控制统计以及各种信息报告,比如测序质量、比对质量、覆盖度和富集统计等,还使得用户能够查询数据质量、评价分析性能并且发现潜在的问题。

 

GigaDBGalaxy——数据发布、组织和分析的革新

 

GigaDB是《GigaScience》期刊的数据库,它是一个拥有可公开获取的大规模数据集的数据库,并用数字对象标示符(DOI)进行标示,从而便于检索和引用。《GigaScience》由华大基因和BioMed Central共同创办,是一个在线的、公开访问和公开数据的开放式期刊,主要发布一些涉及生命科学和生物医学领域的大规模数据的研究。大数据期刊提供了一种新的科学出版模式——文章与数据相结合出版。

 

在这次会议上,来自《GigaScience》杂志的Peter Li给大家介绍了最新版本的GigaDB数据库。该数据库为数据的查询和下载提供了更友好的界面。目前包含有35个以上的数据集,很多之前华大基因未发布的数据,包括基因组学、质谱分析、转录组、表观组和元基因组学数据。

 

GigaDB外,Peter还向大家分享了他们与香港中文大学-华大基因跨组学创新研究所(CBIIT)共同开发的基于Galaxy流程系统的数据分析平台,通过这个分析平台,可以使《GigaScience》期刊中报道的那些软件和数据处理流程应用于实际研究中。作为一个试点项目,他们将华大基因的新一代测序数据分析工具SOAP软件包整合到Galaxy流程中,从而为研究人员提供自动的程序化的流程。

 

Peter表示,“在不久的将来,我们希望能够使《GigaScience》这种在线存储科研流程得以推广应用。GigaDB最终将和基于数据分析的Galaxy平台进行整合,以便使文章中的数据和结果能够以可重复、可利用的方式在分析和评价中得到最大化的使用。”