文 | 曾响铃
来源 | 科技向令说
用文字描述“一个女人打着红色的雨伞在路上走” , 系统呈现出一张唯美的街拍;
有一张飞机起飞的照片 , 想配上一段适合的声音 , 上传图片后 , 一段发动机呼啸声的音频播放出来;
把淅淅沥沥的下雨声导入进去 , 江南水乡老宅的氤氲雨景图展现在了眼前……
这些 , 是已经实现了的多模态AI应用 , 横贯文字、图像、语音 , 在初级应用功能上就已经展现出相比单模态更智能、更自然、更多样化的魅力 , 其前景被普遍关注 , 只不过很长一段时间以来 , 多模态的发展速度一直不算快 。
现在 , 事情正在发生变化 。
在华为全联接2021期间 , 中国科学技术信息研究所、AITISA(新一代人工智能产业技术创新战略联盟)和鹏城实验室联合了发布《人工智能计算中心发展白皮书2.0——从人工智能计算中心走向人工智能算力网络》 , 其中明确提到了以“大算力+大数据”使能大模型(多模态多样化的能力一般都由大模型才能更好的实现 , 或者说多模态的形式表现为大模型) 。 会上 , 中国科学院自动化研究所发布了全球首个三模态大模型紫东.太初 , 这无疑让多模态的发展进入了一个全新的落地阶段 。
多模态大模型 , 正在与人工智能算力网络互相促进 , 成为彼此的最佳伴行者 。
多重因素下 ,多模态大模型已成大势所趋
随着AI的技术和产业发展逐步走向深入 , 多模态大模型的趋势十分明朗 , 这主要表现在三个方面:
首先 , 是AI自身的能力进化要求 。
在单模态领域 , 例如归属NLP的跨语种翻译这类应用 , 机器可以说早已超越人类 , 实现了重要的技术和产业价值 , 如果要进一步往前走 , 多模态自然而然就成为AI技术和产业突围的新方向 。 与此同时 , 单模态本身也面临“知识冰山”的瓶颈问题 , 进一步智能化也需要大模型来支撑 , 例如对“老王去吃食堂”的理解 , 单纯的文字数据很难让AI辨别“吃食堂”不是把食堂吃掉而是“到食堂吃饭” , 但一张场景图片或视频就可以很容易解释清楚并关联起来 。
然后 , 是“数据”供给的要求 。
数据是AI发展的根本、是AI的“食物” , 在全球范围内 , 包括中国市场上 , 互联网的出现帮助AI模型训练的数据量越来越庞大 , 它们让AI得到了快速的能量补充 。
然而 , 目前互联网音视频数据高速增长 , 占比超过80% , 单一数据类型例如文本只占不多的比例 , 这使得更丰富的语音、图像、视频等数据并未被充分利用与学习 , 以多模态的方式将更深度、更广泛地挖掘这些数据的价值 , 反过来 , 大量的各种属性的数据投喂也将推动AI摆脱单模态 , 朝着多模态大模型不断前进 。
推荐阅读
- 快报|“他,是能成就导师的学生”
- 技术|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- bug|这款小工具让你的Win10用上“Win11亚克力半透明菜单”
- 重大进展|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 网络|天津联通全力助推天津市入选全国首批千兆城市
- 历史|科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 空间|(科技)科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 精度|将建模速率提升10倍,消费级3D扫描仪Magic Swift在2021高交会大显“身手”
- 四平|智慧城市“奥斯卡”揭晓!祝贺柯桥客户荣获2021世界智慧城市治理大奖
- |南安市司法局“加减乘除” 打造最优法治营商环境