AI 国内科学家团队发布超大规模AI预训练模型国内科学家团队发布超大规模

20 日，北京智源人工智能研究院发布四个超大规模人工智能预训练模型，统称为“悟道1.0”，涵盖中文语言、多模态、认知、蛋白质预测四个领域，是帮助国内企业、机构开发人工智能应用的大型基础设施。

文章图片

“悟道1.0”由智源研究院学术副院长、清华大学唐杰教授领衔，带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关，同时与快手、搜狗、360、阿里、新华社等龙头企业共同研发工业级示范性应用。

文章图片

智源研究院院长黄铁军教授介绍，近几年这轮人工智能浪潮的基本特点是“数据+算力+算法=模型”，模型浓缩了训练数据的内部规律，是实现人工智能应用的载体。近年来人工智能的发展，已经从“大炼模型”逐步迈向了“炼大模型”的阶段，通过设计先进的算法，整合尽可能多的数据，汇聚大量算力，集约化地训练大模型，供大量企业使用，是必然趋势。
智源研究院2020年10月启动“悟道”项目，研发规模大（主要体现为参数量）、智商高、具备类人认知能力、统一对多模态数据的理解和建模、满足各种应用需要的预训练模型，特别是注重中文语料的采集和训练。
四大模型：中文、多模态、认知、蛋白质预测
“悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍，“悟道1.0”先期启动了4个大模型的研发。
以中文为核心的预训练语言模型“悟道·文源”目前模型参数量达26亿，具有识记、理解、检索、数值计算、多语言等多种能力，并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务，技术能力已与GPT-3齐平。
其目标是构建完成全球规模最大的中文预训练语言模型，在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平，探索具有通用能力的自然语言理解技术，并进行脑启发的语言模型研究。
超大规模多模态预训练模型“悟道·文澜”，目前模型参数量达10亿，基于从公开来源收集到的5000万个图文对上进行训练，是首个公开的中文通用图文多模态预训练模型。
其目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题，并最终生成产业级中文图文预训练模型和应用，并在多个评测应用上超过国际最高性能。
该模型已对外开放API，并有两款小应用，可以为用户上传的照片配文，或搭配最合拍的音乐。

文章图片

面向认知的超大规模新型预训练模型“悟道·文汇”，目前参数规模达113亿，在AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理等多项任务中的表现已经接近突破图灵测试，可以应用在电商行业自动撰写商品文案等场景。

文章图片

【AI|国内科学家团队发布超大规模AI预训练模型】
文章图片

其目标是研发出千亿至万亿级参数量的、更通用、且性能超越国际水平的预训练模型，搭建预训练模型体系，从认知角度研究通用人工智能，发展模型基于逻辑、意识和推理的认知能力。
超大规模蛋白质序列预测预训练模型“悟道·文溯”，已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型，在基因方面完成基于5-10万规模的人外周血免疫细胞（细胞类型25-30种）和1万耐药菌的数据训练，同时搭建训练软件框架并验证其可扩展性。
其目标是以基因领域认知图谱为指导，研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型，在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。
WuDaoCorpora：全球最大中文语料数据库
在科研方面，“悟道1.0”取得了多项国际领先的AI技术突破，与现有同类算法及模型相比提升了训练速度，提高了识别准确度和效率。不过更值得一提的是该项目建设并开放了全球最大中文语料数据库WuDaoCorpora 。
WuDaoCorpora数据规模达2TB，超出之前全球最大的中文语料库CLUECorpus2020十倍以上，同时着重去除了数据中包含的隐私信息，防止了隐私泄露。

AI 国内科学家团队发布超大规模AI预训练模型

推荐阅读

17年除夕经典祝福语短信大全

为什么榴莲是水果之王

冰箱排水口在哪接下来就告诉大家

消费日报首届中国国际消费品博览会倒计时50天暨吉祥物发布在海口举行

电动窗帘如何保养

墙漆颜色效果图教你如何选择墙漆颜色

台北有哪些美食米其林餐厅能代表台北饮食文化的最高点吗

测血压能测出什么

金玉良缘暗指贾宝玉和谁的关系《红楼梦》中金玉良缘指的是谁和谁

合同撤销的法律后果是什么

河西走廊位于哪个河西

月季如何养殖养护月季的方法

唯美爱情说说：Your name , my heart. 你的名字，我的心事

热水器漏电怎么测？

黑咖啡喝多了有什么坏处，长期喝黑咖啡有什么好处和坏处

g社是什么，gainax为什么叫宅社

汽车调研是什么工作汽车产品调查包括

秉荃的寓意

oppo下滑搜索怎么取消，oppo手机怎么取消下拉搜索功能

欢乐人尬演相声，“欢乐喜剧人”就剩下岳云鹏孙越尚筱菊撑场