平台|为战“疫”工作提供数据支撑


平台|为战“疫”工作提供数据支撑
文章图片

基因库正门的猛犸雕像
作为服务于国家战略的重大科技基础设施之一 , 位于深圳大鹏新区的深圳国家基因库经过近10年的启动建设已成为目前世界领先的存、读、写一体化的综合性生物遗传资源基因库 。
在这里 , 科学家们对生物遗传资源进行存储、读取、合成运用和开放共享 , 并以此为基础搭建起挖掘基因资源 , 通过自身的不断努力使得深圳国家基因库成为支撑我国甚至全球生命科学研究与生物产业创新发展的公益性、开放性、引领性、战略性科技平台 。 截至2021年1月22日 , 国家基因库生命大数据平台(CNGBdb)归档数据量达3877TB , 假设一部高清电影的大小为1GB , 这些归档数据约相当于400万部高清电影 。
近年来 , 很多为国际广泛关注的生命科学领域科研成果正是由深圳国家基因库提供了有力的数据支撑 。 而我国基因组学在精准医学、精准健康、未来农业、海洋开发、微生物应用等方面的前沿探索与产业转化 , 也正有赖于深圳国家基因库发挥其积极作用 。
文、图/广州日报全媒体采访人员鲍文娟
系全球第4个国家级基因库
深圳国家基因库位于深圳市大鹏新区观音山脚下 , 这座临海环山的梯田式建筑与周边野趣生态融为一体 , 宛如世外桃源 。 其占地面积超过5万平方米 , 建筑面积11.6万平方米 。 这是继美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)、日本DNA数据库(DDBJ)之后的全球第4个国家级基因库 。
在抗击新冠肺炎疫情的关键时期 , 由深圳国家基因库和华大区块链团队共同开发的新型冠状病毒基因组分析平台促进新冠病毒基因组数据及相关演化分析结果的实时共享 , 为评估疫情风险、启动公共卫生应对措施及制定医疗对策提供全面、有效的数据支撑 。
2008年建立的全球共享流感数据倡议组织(GISAID)是目前全球最大的流感及新型冠状病毒数据平台 。 去年3月中旬 , 深圳国家基因库与该平台达成战略性合作 。 双方围绕呼吸道传染病相关病毒的基因数据管理、共享、分析等方面展开全面合作 , 促进病毒数据的全球共享 。 国家基因库生命大数据平台(CNGBdb)成为GISAID的中国首个正式授权平台 。
【平台|为战“疫”工作提供数据支撑】本次战略合作帮助我国科研工作者获得一站式病毒数据资源访问服务和更加丰富的分析工具 , 也标志着我国科研机构在合规合法、保护数据生产者和提交者权利的前提下 , 促进全球范围新型冠状病毒及流感病毒数据共享方面迈出重要一步 。
积累数据相当于400万部高清电影
深圳国家基因库是一个年轻有朝气的机构 , 近300名员工 , 平均年龄约29岁 。 “这里的工作很有挑战 , 也很有成就感 。 ”深圳国家基因库生物信息数据库主管曾文君告诉采访人员 。 他于2017年加入深圳国家基因库 。 就是他率领团队搭建了国家基因库生命大数据平台 。 该平台目前已经成为国内最大的生物大数据中心之一 , 致力于为科研工作者提供生物大数据共享和应用服务 。 截至2021年1月22日 , 归档数据量为3877TB , 一部高清电影用1GB计算的话 , 约相当于400万部高清电影 。
很多为国际广泛关注的生命科学领域科研成果的测序数据产出是依托深圳国家基因库数字化平台进行 。 在1月6日举行的深圳市科学技术奖励大会上 , 由深圳国家基因库等单位共同起草的国家标准《GB/T34798-2017核酸数据库序列格式规范》项目荣获2020年度深圳市科学技术奖“标准奖” 。 该项目是我国在高通量基因测序数据规范领域制定的首个国家标准 。
“不同数据库有着不同的命名规则 。 为了让信息之间无缝对接 , 只有统一数据格式标准 , 才能有利于各地数据库的共享交换 , 只有格式标准统一 。 不同数据库才能较好地对接实现数据共享 , 分析工具才能有效率 。 ”曾文君告诉采访人员 , “制定相关国家标准 , 为规范行业数据应用打下坚实基础 , 对于规范和支持高通量测序领域的产业发展具有重要意义 , 也有助于大幅度地提升科研效率 。 ”
截至2020年12月31日 , 深圳国家基因库参与起草的已发布实施的标准达23项 , 其中包括5项国家标准、10项地方标准、8项团体标准 , 填补多项行业空白;同时 , 制定发布了30项企业标准 , 规范了内部技术及管理流程 。 这为我国生命科学研究、医学健康和生物产业发展提供了重要的基础支撑 。
“三库两平台” 拟打通基因科技上下游应用
深圳国家基因库目前已初步建成了“三库两平台”的业务结构和功能 。 其中 , 生物样本资源库、生物信息数据库和动植物资源活体库建立了样本、数据、生命体“存”的能力;数字化平台、合成与编辑平台建立“读”与“写”的能力 。
经过近5年的发展沉淀 , “库”和“平台”已经成为科学家们的科研“利器” 。 其中生物样本资源库是全球领先的高通量、低成本的综合性生物样本库 , 拥有千万级的样本存储能力 。 而生物信息数据库建立了高效、安全的生命科学领域信息数据分析平台 , 并搭建了国家基因库生命大数据平台 , 支撑资源共享 。 动植物资源活体库立足于“存”和“读”的能力 , 将建设成为数字化的生物多样性基地和生物资源库 , 为人类可持续发展提供保障 。
而数字化平台 , 又称“读”平台 , 读出生物的碱基 , 即为测序平台 。 目前深圳国家基因库拥有一系列具有自主知识产权的国产化测序仪 , Pb级数据产出能力 , 规模大、能力全面 , 是世界领先的基因组数据产出中心 。 而合成与编辑平台 , 又称“写”平台 。
深圳国家基因库主要负责人介绍 , “写”平台在功能上与“存”“读”平台相辅相成 , 打通基因科技“存、读、写”技术联动 , 通过技术迭代进行核心技术的成本指数级降低 , 促进基因科技产业应用的广泛拓展 , 形成的国家级资源库将成为全球范围首个真正打通基因科技上下游应用的创新性体系 。
“三库两平台”的功能和业务看上去离大众很远 , 但实际上又关系到每一个人的切身利益 。 曾文君告诉采访人员 , 基于深圳国家基因库支撑的重大科研项目 , 打造了覆盖健康与疾病、生物多样性、微生物等不同研究领域的十大20多个专有数据库 。
人体是一个由自身细胞和共生微生物构成的超级生物体 。 越来越多的科学证据表明 , 人体共生微生物与人们的营养、代谢和免疫密切相关 。 只有深入认识人体微生物的特性 , 才能解码与之相关的人体健康奥秘 。 而深圳国家基因库微生物资源库为例是目前国内最大的健康人体微生物库 , 能够为菌株功能的深入研究提供基础资源 。 通过高通量培养组学和高通量16SrRNA鉴定技术 , 从健康人体的肠道、皮肤等部位筛选保藏3.8万余株微生物 , 分布于800余种属 , 包含100余个新种 , 并对菌株开展了全基因组测序 , 初步建立了集资源和数据于一体的健康人体共生微生物库 。 目前深圳国家基因库微生物资源库已对外发放菌株2000余株 , 提供各类技术服务500多次 , 促进了相关领域的科学研究 。
建开放共享机制促大湾区前沿学科建设
据了解 , 深圳国家基因库建立了全面的开放共享机制来支撑公共科研需求 , 推进粤港澳大湾区重大科技基础设施、交叉研究平台和前沿学科建设 。
所谓开放共享 , 目前包括资源数据和仪器设施两方面 。 该负责人表示 , 具体来说 , 深圳国家基因库积极贯彻落实国家关于生物遗传资源与科学数据管理的相关政策法规 , 推动行业内资源数据的整合 , 加强我国生物遗传数据与生命科学数据的规范管理和利用;同时在满足深圳国家基因库公益类服务、科研合作类服务开展的前提下 , 利用深圳国家基因库平台剩余能力向公众提供技术与服务以支撑科研 , 支撑我国生物产业提升创新能力 , 推动我国生命经济快速发展 。
近年来 , 在深圳国家基因库理事会的指导下 , 深圳国家基因库在支撑生命科学研究与生物行业发展方面发挥了重要作用 , 不断提升了基础设施能力和科技水平 , 进一步拓展了对外开放共享和支撑服务 。
据统计 , 迄今为止 , 深圳国家基因库已服务国内外数百家医院、高校、科研院所等机构 , 支撑多项重大科研成果在国际知名期刊发表 , 发布国家、地方、团体、企业标准等数十项 。 而深圳国家基因库与湾区的高校、医院、企业等机构也进行了紧密合作 。
去年 , 由中山大学与深圳国家基因库合作开发的翻译组学可视化在线数据分析平台 , 在国家基因库生命大数据平台上线 , 对全球科研人员公开并可免费使用 。 这能帮助科研人员极大地节省数据分析处理所需的开发时间和资源 , 加速翻译组学领域的研究工作 , 推动生物和医学研究与应用 。
深圳国家基因库相关负责人表示 , 搭建起深圳国家基因库这样的公益性、开放性、支撑性、引领性服务平台 , 将有助于促进基因组学在精准医学、精准健康、未来农业、海洋开发、微生物应用等方面的前沿探索与产业转化 , 真正实现基因资源的共有、共为、共享 。
作者:鲍文娟

    推荐阅读