相关性|爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩

原创 娉娉 果壳
美美的自拍、爱豆的演唱会、自己做的美食、旅游风景、读书心得……你喜欢在社交媒体(如朋友圈、微博)分享什么?
朋友圈本是自由自在(屏蔽老师和长辈后)分享生活和感悟的地方 , 然而万能(è)的科学家一番操作后 , 竟能根据朋友圈推测你的学习成绩!

相关性|爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩
文章图片

是不是顿时瑟瑟发抖?立马想删朋友圈?你还敢随心所欲地发朋友圈吗?
“战斗民族”开发的AI
这款能够根据社交媒体上的发帖推测成绩的AI模型 , 由俄罗斯国立高等经济学院(HSE)的教授伊万·斯米尔诺夫(Ivan Smirnov)开发建立 。
要训练能推测成绩的AI系统 , 首先需要研究学业成绩与社交媒体帖子内容之间的联系 。
如何才算学业成绩优良?斯米尔诺夫研究团队采用了国际学生评估计划(PISA , Programme for International Student Assessment)的标准 , 通过3门考试评测学生成绩:阅读、数学以及科学 。
不过 , 斯米尔诺夫团队把阅读成绩的权重提到了首要位置 。 PISA将阅读素养定义为“理解、运用、反思和能够通过书面文本以实现个人目标 , 发掘个人的知识和潜能 , 并参与社会活动” , 并认为这是在其他学科领域取得成就的基础教育制度 , 也是成功参与大多数成人生活领域的前提 。
PISA考试有6个等级 , 得分为2的学生被认为仅满足基本的最低水平 , 而得分为5或6的学生则被认为是优秀的学生 。
接下来 , 斯米尔诺夫将研究样本来源定为VK(VKontakte , 俄语:ВКонтакте) , 这是俄罗斯最受欢迎也是用户最多的社交媒体 , 被称为俄罗斯的Facebook , 在俄罗斯的影响力等同于我们的微信、微博 。 研究团队从社交网站VK收集了3483个学生的公开可用信息 , 排除重复发布、自动发布的一些帖子外 , 最终选定2468个用户的130575个帖子为最终数据集 。

相关性|爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩
文章图片

VK社交平台 | play.google.com
为研究PISA成绩与VK帖子的相关性 , 研究团队最终选择开放的词汇分析 , 即从数据中提取模式并且不依赖任何先验词类别的词汇分析 。 研究团队利用VK语料库(总计19亿个单词 , 250万个不重复的单词)训练了一个线性回归模型 , 来推测报告作者的PISA分数 。
爱发表情包的不是好学生?
AI通过机器学习后 , 可以分析学生发帖的词汇表 , 每个词都有相应的权重 。 通过一个人所发帖的所有词的权重 , 就可以分析推算其成绩 。
该AI显示 , 星座、大量的表情符号、感叹号、服兵役、驾驶以及用大写字母写的单词或短语等 , 都与成绩优秀呈现负相关 , 即帖子里大量包含这些内容可能表明发帖人学习成绩不好(莫名中枪?) 。

相关性|爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩
文章图片

星座爱好者不是好学生?| 图虫创意
而当帖子里包含大量科学、文化、拉丁文、长单词、词汇量多的长句子 , 则可能表明发帖人成绩优秀 。
运用该AI系统推测学生成绩 , 区分成绩不良(低于2分)和成绩优秀的学生准确率高达93.7% 。
不过如果你在社交媒体发帖量很少 , 该AI在推测你的学习成绩时便存在一定的误差(所以仅三天可见是机智的?) 。

相关性|爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩
文章图片

常见文本特征与成绩之间相关性 | Ivan Smirnov
你是不是正在想 , 幸好这个AI分析的不是微信朋友圈和微博 。 不过 , 万能(è)科学家已经将此AI运用到了Twitter , 发现此AI在Twitter上依然可以成功应用——所以这个AI训练后可以被广泛应用 。
除此之外 , 研究人员还通过选择在训练语料库中出现至少5次的最高分和最低分的400个单词来探索主题集群 。
与成绩优秀相关的集群包括:
英语单词:above, saying, yours, must(学霸喜欢祈使句?);
与文字和文学相关(蒲公英、布拉德伯里、华氏度,奥威尔、赫胥黎、福克纳、纳博科夫、布罗斯基、加缪、曼、雪莱、莎士比亚;
与阅读相关词汇:读、重读、出版、书、卷;
物理学相关的单词:宇宙、洞、字符串、理论、量子、爱因斯坦、牛顿;
与思考过程有关的词:思考、记忆及各种同义词 。
与成绩不佳相关的集群包括:
常见的拼写错误;
流行的电脑游戏名称;
与兵役有关的词汇:军队、服役、军人誓言;
星座:白羊座、射手座等(星座爱好者再次中枪);
汽车和道路事故:交通碰撞、交通安全总局、车轮、调整(看来学霸总在书桌前 , 而学渣一直在路上) 。

相关性|爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩
文章图片

与成绩相关的不同集群 | Ivan Smirnov
在征服俄语世界的VK以后 , 该AI模型又轻易征服了英语世界的Twitter , 看来中文世界的微信和微博也岌岌可危了(瑟瑟发抖) 。 研究者还表示 , 这个AI还可以被用于预测发帖者的抑郁程度或收入水平 。

相关性|爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩
文章图片

知道真相的我心里一百个拒绝 | TikToK
想到以后录取前/录用前 , 老师或面试官先用这个万能(è)AI 检测一下你的朋友圈的可怕未来……我果断点了仅三天可见保命 。
但是这个AI并不能推算所有人的学习成绩 , 毕竟还有一些虽然游戏玩得飞起 , 期末考试仍然血虐别人的学神 , 以及每天都说自己在聚餐玩耍 , 实则一整天泡在图书馆的学霸(白眼) 。
不过有一点可以确定 , 多转发果壳的科普 , 可以提高学习成绩(误 。
【相关性|爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩】参考文献
[1]https://www.eurekalert.org/pub_releases/2020-10/nruh-aic102220.php
[2]https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-020-00245-8
作者:娉娉
编辑:朱步冲
一个AI
吓得我立马转发了十条前沿科学研究和十本经典名著 。

相关性|爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩
文章图片

本文来自果壳 , 未经授权不得转载.
如有需要请联系sns@guokr.com
喜欢此内容的人还喜欢
_原题《爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩》
阅读原文

    推荐阅读