An ongoing outbreak of a novel coronavirus infection in Wuhan, China since December 2019 has led to 31,516 infected persons and 638 deaths across 25 countries (till 16:00 on February 7, 2020). The virus causing this pneumonia was then named as the 2019 novel coronavirus (2019-nCoV) by the World Health Organization. To promote the data sharing and make all relevant information of 2019-nCoV publicly available, we construct the 2019 Novel Coronavirus Resource (2019nCoVR, //bigd.big.ac.cn/ncov). 2019nCoVR features comprehensive integration of genomic and proteomic sequences as well as their metadata information from the Global Initiative on Sharing All Influenza Data, National Center for Biotechnology Information, China National GeneBank, National Microbiology Data Center and China National Center for Bioinformation (CNCB)/National Genomics Data Center (NGDC). It also incorporates a wide range of relevant information including scientific literatures, news, and popular articles for science dissemination, and provides visualization functionalities for genome variation analysis results based on all collected 2019-nCoV strains. Moreover, by linking seamlessly with related databases in CNCB/NGDC, 2019nCoVR offers virus data submission and sharing services for raw sequence reads and assembled sequences. In this report, we provide comprehensive descriptions on data deposition, management, release and utility in 2019nCoVR, laying important foundations in aid of studies on virus classification and origin, genome variation and evolution, fast detection, drug development and pneumonia precision prevention and therapy.
赵文明, 宋述慧, 陈梅丽, 邹东, 马利娜, 马英克, 李茹姣, 郝丽丽, 李翠萍, 田东梅, 唐碧霞, 王彦青, 朱军伟, 陈焕新, 章张, 薛勇彪, 鲍一明.
Wenming Zhao.
2019年12月以来,中国湖北省武汉市部分医院陆续发现了多例不明原因肺炎病例,后被证实是由一种先前尚未发现的冠状病毒(coronavirus)感染引起的急性呼吸道传染病,这种病毒被世界卫生组织(World Health Organization, WHO)命名为2019新型冠状病毒(2019 novel coronavirus, 2019-nCoV)*[1]( *注:2020年2月11日,2019新型冠状病毒(2019-nCoV)被国际病毒分类委员会(the International Committee on Taxonomy of Viruses)冠状病毒研究小组(Coronavirus Study Group, CSG)命名为“SARS-CoV-2” (severe acute respiratory syndrome coronavirus 2),同时,由该病毒感染引起的疾病被WHO命名为“COVID-19” (corona virus disease 2019)。),该病毒与中东呼吸综合征相关冠状病毒(middle east respiratory syndrome-related coronavirus, MERSr-CoV)和严重急性呼吸综合征相关冠状病毒(severe acute respiratory syndrome-related coronavirus, SARSr-CoV)同属于β冠状病毒属[2]。
利用快速发展的基因组学方法与技术,全球的科研人员已经获得了多个2019-nCoV基因组序列,并且开展了多项相关研究[2,3,4,5,6,7]。因此,收集整合已有的2019-nCoV数据,构建统一完整的信息库系统,实现对数据的动态发布与共享对于防控病毒疫情、制定病毒性肺炎治疗方案具有重要意义[8,9]。自2020年1月5日,复旦大学张永振教授向美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)[10]的GenBank数据库提交第一条新型冠状病毒基因组序列(Acc. No. MN908947)至2020年2月5日,共有86条2019-nCoV序列数据在全球多个数据库发布,主要分布于德国全球流感病毒数据库(Global Initiative on Sharing All Influenza Data, GISAID)[11]、美国NCBI、深圳(国家)基因库(China National GeneBank, CNGB)[12]、国家微生物科学数据中心(National Microbiology Data Center, NMDC)[13]及国家生物信息中心(China National Center for Bioinformation, CNCB)/国家基因组科学数据中心(National Genomics Data Center, NGDC)[14]等相关数据库。然而,2019-nCoV序列数据分散在这些数据库中,未形成完整、统一访问的数据集,这给科研人员检索、预览和获取数据带来诸多不便。
图1 2019新型冠状病毒基因组元信息相关统计结果
Fig. 1 Statistics of 2019-nCoV genome meta information
在病毒来源方面,所收录的病毒株主要来自湖北省武汉市,部分来自广东省和浙江省等地区,还有一小部分来自美国、泰国和日本等国家。病毒样本采集单位主要包括香港大学深圳医院、广东省疾病预防控制中心(Center for Disease Control and Prevention, CDC)、广东省公共卫生研究院、武汉金银潭医院、中国医学科学院病原生物学研究所等国内外28家医疗卫生或科研单位。基因组测序和数据递交主要由香港大学深圳医院、中国CDC、广东省CDC、湖北省CDC、华大基因(Beijing Genomics Institute, BGI)等30家单位完成()。
图2 冠状病毒科基因组序列信息汇总
Fig. 2 Coronaviridae genome sequence information
2019nCoVR分别选取可感染人的两种冠状病毒,即SARS (NC_004718)和最先公布的2019-nCoV基因组序列(MN908947),以及一种从蝙蝠中分离采集到的SARS样冠状病毒(bat-SL-CoVZC45, MG772933)作为参考基因组,整合“发布动态”中汇总可获取的全基因组序列,用Muscle软件[)。
图3 新型冠状病毒序列的系统进化树
Fig. 3 Phylogenetics tree of 2019-nCoV
通过提取基因组序列比对中发现的变异位置、类型及信息,并配置GBrowse浏览器[)。此外,统计包括插入、删除、Indel和单核苷酸多态位点(SNP)的各类变异总数,提供了每个病毒株变异统计信息检索及下载。汇总各株变异信息发现主要的变异类型是SNP。经统计,与2019-nCoV参考序列相比,有14株病毒的序列无变异,49株平均有1~9个SNP变异(),1株有27个SNP变异,因此推测该株(Acc. No. EPI_ISL_406592)的基因组序列质量存在问题。此外,检测到的少数序列删除变异(deletion)主要发生在基因组的5ʹUTR和3ʹUTR区域,有可能与测序准确率、基因组拼接等有关。初步提示已发布的65株病毒可能来源于近期出现的同一个病毒源。
图4 基因组序列变异在线展示示意图及变异信息统计与注释
Fig. 4 Snapshot of genome sequence variants on GBrowse as well as SNP statistics and annotations
2019nCoVR整合了来源于公共数据库及公共媒体的相关信息,主要包括:(1) NCBI冠状病毒科的所有序列、冠状病毒全基因组序列、感染人的冠状病毒全基因组序列、2019-nCoV序列等;(2)PubMed中冠状病毒相关的学术文献及Europe PMC针对2019-nCoV的最新学术报道;(3)中国CDC及WHO等权威机构对2019-nCoV的新闻报道、病毒解读及其相关的科普知识。这些内容为全球科研人员和普通民众开展学术研究、了解科研进展、掌握新闻动态与科学知识提供一站式数据资源与信息窗口。
依托CNCB/NGDC的GSA系统,2019nCoVR提供新型冠状病毒原始测序数据的汇交服务,汇交内容主要包括元数据信息和序列文件。数据递交完成后,GSA系统会对用户递交的元数据信息和序列文件进行质量控制与审核,校验文件大小和内容、统计序列信息、评估数据质量,以此确保递交数据的完整性和可靠性。审核通过后,系统会为该数据分配唯一的数据编号(accession number),并通过邮件通知递交者。数据编号可作为数据检索和访问的标识,也可在文章中使用。
为严格把控病毒基因组数据入库质量,针对用户递交的数据,GWH建立了严格的质量控制标准,审核检查数据的合法性和一致性,主要包括序列合法性、基因结构与信息完整性、基因结构内部的一致性、序列内容与注释信息的一致性以及载体、接头、index、污染序列等。数据审核通过后,GWH系统会为该数据分配正式的数据编号,方便数据检索、访问和下载。截止到2020年2月5日,已经收录了中国医学科学院病原生物学研究所和中国科学院武汉病毒研究所提交的11株冠状病毒全基因组序列。为了进一步扩大2019-nCoV基因组序列的国际影响力和应用范围,CNCB/NGDC与国际生物信息数据库建立了数据同步共享机制,第一批5个2019-nCoV全基因组序列已经在NCBI发布(Acc. No. MT019529~ MT019533)。
表1 三类数据访问类型的基本规则
Table 1
数据类型 | 汇交内容 | 公开程度 | 开放对象 | 开放条件 |
公开* |
元信息 关联数据 |
公开 | 所有用户 | 审核通过即公开 |
受控 |
元信息 关联数据 |
公开 受控 |
所有用户 申请用户 |
相关科研论文已发表或达到约定公开时限 |
私有 |
元信息 关联数据 |
受控 | 无 | 相关科研论文已发表或达到约定公开时限 |
2019nCoVR整合来自CNCB/NGDC、CNGB、GISAID、NCBI及NMDC 的新型冠状病毒数据资源,无缝对接CNCB/NGDC的相关数据库,为新型冠状病毒基因组数据的快速发布与开放共享提供公共平台,也为加速开展病毒分类溯源、基因组演化、快速检测、药物研发、新型肺炎的精准预防与治疗等研究提供重要基础。随着2019-nCoV科研工作的深入开展,2019nCoVR将持续更新并发布相关基因组序列及其元数据信息,为攻坚2019-nCoV提供数据保障与信息支撑。同时,特此呼吁科研人员和医务工作者加快推进2019-nCoV基因组数据的汇交、共享与发布,建立实现全球数据共同体,协同战胜病毒疫情。
