基准|智源指数CUGE发布,AI大模型有了评测新基准
人工智能大模型方兴未艾 , 评测基准成为大模型发展的风向标 。 在北京智源人工智能研究院(以下简称“智源研究院”)近日举行的自然语言处理(简称NLP)重大研究方向前沿技术开放日活动上 , 中文语言理解和生成的评测新基准——智源指数发布 。
文章图片
近些年来 , 英文评测基准GLUE等评测基准成为衡量大模型语言智能进展的重要标准 , 受到学界和业界的广泛关注 。 但是 , GLUE只评测语言理解能力 , 而忽略语言生成、多语言、数学推理等重要语言能力;只提供数据集得分和总体得分 , 并且总体得分容易受到少数数据集的主导 。
【基准|智源指数CUGE发布,AI大模型有了评测新基准】从扁平到全面系统 , 从简化到多重维度 , 智源指数CUGE旨在尝试为大模型评测设计一张全面评估综合能力的新考卷 。
在基准框架上 , 智源指数不同于传统将常用数据集扁平组织的方式 , 根据人类语言考试大纲和当前NLP研究现状 , 以语言能力-任务-数据集的分层框架来选择和组织数据集 , 涵盖7种重要的语言能力、17个主流NLP任务和19个代表性数据集 , 全面均衡 , 避免“偏科选拔” 。
在评分策略上 , 智源指数能更好展现模型不同维度的模型语言智能差异 , 依托层次性基准框架 , 提供不同层次的模型性能评分 , 包括在数据集、任务和语言能力等 , 系统性大大加强 。
为了促进智源指数的共建共享 , 提升智源指数的易用性 , 本次活动还同时发布了在线评测平台和公开排行榜 , 支持多种展示模式 , 包含综合榜、精简榜和单数据集榜 , 方便用户快速多角度了解模型和数据集特性及最新动态 。
发布仅是起点 , 发展还需生态共建——清华大学副教授、智源青年科学家、智源指数建设骨干成员刘知远说:“基于单数据集的榜单能力 , 未来智源指数将定期吸纳最新优秀数据集 。 同时 , 我们还将依托智源研究院、智源社区的力量 , 建立用户面向数据集和评测结果的反馈、讨论机制 , 构建起中文高质量数据集社区 , 推动中文自然语言处理的发展 。 ”
在智源研究院的支持下 , 自然语言处理重大研究方向学者团队积极探索自然语言处理新格局 , 通过大数据与富知识双轮驱动 , 并通过与跨模态信息进行交互 , 显著提升以自然语言为核心的中文语义理解与生成能力 。
落地应用方面 , 清华大学李涓子教授团队构建的“多模态北京旅游知识图谱”可以为路径规划和景点信息查询等功能提供数据支持 , 为游客进行旅游行程的规划 。
据悉 , 智源指数受到北京智源人工智能研究院的支持 , 工作委员单位由清华大学、北京大学、人民大学、中国科学院、北京语言大学、复旦大学、哈尔滨工业大学、上海交通大学、苏州大学、大连理工大学、山西大学、京东研究院组成 。
推荐阅读
- 指数|拥抱元宇宙投资大未来 富国中证消费电子主题ETF盛大发行中
- 指标体系|长沙高新区布局数字产业 首发先进计算产业发展指数
- Intel|英特尔ARC A380桌面版基准测试数据泄露 与RTX 3050 Ti笔记本GPU相当
- 语言|清华大学教授孙茂松等建立机器中文语言能力评测基准“智源指数”
- 产品|产品科研和品牌输出为基准点,雷炎科技建造品牌服务终端能力
- 视点·观察|App Annie:2021年11月移动应用指数排行榜
- 方面|信通院发布5G“扬帆”发展指数(2021年)
- Top10|资本在哪座城市布局热情高?中国硬科技发展指数公布
- 基准|MIT本科生研发机器人基准“健身房”,可进化出30多种运动能力
- 电路|衡量量子计算机性能的新型基准测试法出炉