数据|天大本科生论文入选CVPR 2022,实现深度学习长尾分类新SOTA
丰色 发自 凹非寺
量子位 | 公众号 QbitAI
本科生搞科研到底能做出什么成绩?
最新被 CVPR 2022收录的一篇论文中 , 提供了一种新思路来解决深度学习中 长尾分布数据的分类问题 , 最终实现了新SOTA 。
文章图片
文章一共5位作者 , 有博士生 , 也有来自新加坡A*STAR的高级研究员……
而排在 一作位置的 , 是一位来自 天津大学的 本科生—— 李同学 。
厉害的是 , 这还不是这位“初生牛犊”的第一篇顶会论文 , 在此之前 , 他还中了一篇 数据挖掘领域的顶会(WWW 2022) , 同样是一作 。
文章图片
本科生搞科研 , 势头已经这么强了吗?
大三进实验室 , 大四就有2篇顶会在手
李同学来自天津大学 智能与计算学部 , 今年 大四 。
这篇CVPR文章 , 主要就是以新型集成 (ensembling)学习策略来解决长尾分类的问题 。
文章图片
长尾分布大家都知道 , 对于这些数据的分类则是深度学习中十分常见的一个应用 。
它的难点主要是 样本量极端不平衡 ,尤其尾部样本量过少 , 难以获得有效的训练结果 。
目前 , 基于集成学习的方法显示出巨大潜力 , 实现了SOTA性能 。
但这种方法有两个局限性:
一是在failure-sensitive应用中的预测通常不可信 , 这对极容易出错的尾部数据的影响非常大;
二是它会为所有样本分配统一数量的资源 (experts) , 这对于简单样本来说 , 造成了多余、过高的计算成本 。
因此 , 李同学等人提出 , 通过引入不确定性集成 , 来实现对尾部类别样本的自动感知 。
在此基础上 , 提出为尾部类别样本 动态分配比头部样本更多的模型资源 (experts) , 以兼顾性能与效率 。
【数据|天大本科生论文入选CVPR 2022,实现深度学习长尾分类新SOTA】
文章图片
△测试阶段使用哈佛提出的DS理论形成joint uncertainty
最终 , 所得模型实现了对尾部类别样本的自动化检测与训练调节 , 成为一个解决长尾分类问题的通用模型 。
一系列分类、尾部检测、离群点检测和故障预测等任务的综合实验证明 , 该模型的性能成功 打败现有的SOTA方法 。
他是在大三的时候 , 凭着优秀的学习成绩进入了学部的 机器学习与数据挖掘实验室 。
文章图片
在导师张长青 (天津大学博导)的带领下 , 李同学经过短短一年半的学习 , 就 中标了两篇顶会论文 。
可以说后生可畏 。
越来越多的本科生开始发顶会
不过要说起本科生搞科研 , 其实大家应该有所注意 , 很多学校对于这件事越来越开放和重视:
在大三或者 更低年级时 , 就会开放一些名额让有潜力的学生进入实验室 , 和研究生、博士生一起搞科研 。
比如清华“星火班”就招募大二学生 , 北大也鼓励学生从大二就开始开展科研项目 , 而像中科大等学校 , 对做出相应成绩的本科生还会给予 专门的奖学金 。
在这样的情况下 , 已经有不少像李渤涟这样的学生 , 在本科期间就发表上顶会了 , 可谓光环满身 。
比如我们熟悉的 清华特奖得主、2016级本科生高天宇 , 大学四年期间就有四篇顶会在手:两篇AAAI、两篇EMNLP , 还开过一个直播 , 专门传授起自己的科研经验 。
文章图片
比如 MIT本科生毛啸 , 大四中标计算机理论顶会FOCS 2021 , 并摘得最佳学生论文奖 。
再比如清华电子系本科生刘泓 , 3篇一作顶会;北大本科生吴克文不仅发顶会 (ACM计算理论年会STOC) , 还拿下最佳论文奖;以及电子科大本科生王谭也有1篇一作CVPR 2020、浙大本科生任意同样1篇一作ICML 2019……
类似的例子非常多 。
可以说 , 本科生搞科研是越来越厉害了 , 大家觉得呢?
文章图片
论文地址:
https://arxiv.org/abs/2111.09030
参考链接:
http://cic.tju.edu.cn/info/1040/3704.htm
— 完—
「人工智能」、「智能汽车」微信社群邀你加入!
欢迎关注人工智能、智能汽车的小伙伴们加入我们 , 与AI从业者交流、切磋 , 不错过最新行业发展&技术进展 。
ps.加好友请务必备注您的姓名-公司-职位哦~
点这里 ??关注我 , 记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~
推荐阅读
- 用电量|2021年国家绿色数据中心名单出炉,这个数据中心连续2年上榜
- 数据库|不做工程等于纸上谈兵——对话OceanBase创始人阳振坤
- IT|航空专家:为什么必须找到黑匣子?数据为何不能云同步?
- 数据|数字绿土将携多款激光雷达产品亮相WGDC2022
- 视点·观察|国际学术交流受阻 俄罗斯不再强调通过国际期刊数据库评估科研成果
- Type-C|USB又改名了,以后我们买数据线终于不怕被坑!
- 数据|【生活】2021国人日均睡眠数据出炉 你超过7小时了吗
- 代码|2021研发大数据报告发布,腾讯研发人员增长四成
- Tesla|车展车顶维权案已快一年 女车主视频发声:特斯拉仍不给完整数据
- 数据|全球数据开放研究者范佳佳:需要制定详细的数据开放负面清单