人工智能学习技术可以解释大脑奖赏路径的功能

来自DeepMind、大学学院和哈佛大学的一组研究人员发现，将学习技术应用于人工智能系统的经验和教训可能有助于解释奖励路径在大脑中的工作方式。在《自然》期刊上发表的论文中，该小组描述了计算机中的分布式强化学习与小鼠大脑中的多巴胺处理的比较，以及他们从中学到了什么。
【人工智能学习技术可以解释大脑奖赏路径的功能】

文章插图
之前的研究表明，大脑中产生的多巴胺与奖励过程有关——当有好事发生时产生，它的表达会带来愉悦感。一些研究还表明，大脑中对多巴胺的存在做出反应的神经元都以相同的方式做出反应——事件可以使人或小鼠感觉良好或不好。其他研究表明，神经元反应更多的是一种梯度。在这项新工作中，研究人员发现了支持后一种理论的证据。
分布式强化学习是一种基于强化的机器学习。在设计《星际争霸2》或《围棋》等游戏时经常用到。它会跟踪好动作和坏动作的关系，学会减少坏动作的数量，发挥更多的性能。然而，这样的系统不会平等地对待所有好的和坏的行为——每个行为在被记录时都被加权，并且权重是在做出未来行为选择时使用的计算的一部分。
研究人员指出，人类似乎使用类似的策略来提高自己的游戏水平。伦敦的研究人员怀疑，人工智能系统和大脑处理奖励的方式之间的相似之处可能也是相似的。为了确定他们是否正确，他们在老鼠身上做了实验。他们植入了一种能够将单一多巴胺神经元反应植入大脑的装置。然后，这些老鼠被训练去完成一项任务，在这项任务中，它们会得到想要的奖励。
小鼠的神经元反应表明，它们并不都像先前理论预测的那样做出相同的反应。相反，它们以一种可靠而不同的方式做出反应——正如该团队所预测的那样，这表明老鼠体验到的快乐更多的是一种梯度。

人工智能学习技术可以解释大脑奖赏路径的功能

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)