首页 > 活动线报 > 每日福利 > 谷歌:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了

谷歌:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了

发布时间:2024-06-02 22:12:46

刚刚,谷歌DeepMind、JHU、牛津等发布研究,证实GPT-4的心智理论已经完全达到成年人类水平,在更复杂的第6阶推理上,更是大幅超越人类!此前已经证实,GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上,人类是彻底被LLM甩在后面了。

 

GPT-4的高阶心智理论(ToM),已经正式超越人类!

就在刚刚,谷歌DeepMind、约翰斯·霍普金斯大学和牛津大学等机构的学者发布的研究证实,GPT-4在心智理论任务上的表现,已经完全达到了成年人类的水平。

而且,它在第6阶推理上的表现,更是大幅超过了人类!


论文地址:https://arxiv.org/pdf/2405.18870

无独有偶,此前Nature子刊《自然·人类行为》的一项研究也证实了,GPT-4在心智理论上的表现已经位于人类水平之上,能够比人类更好地察觉出言语中的讽刺和暗示。如果你不这么觉得,那它大概率只是在隐藏实力而已。

总之,这前后脚的两项研究清晰地表明,如今表现最好的大语言模型,已经发展出广义的心智理论能力,而GPT-4,已经是其中的佼佼者。


所以,距离各位LLM用心智和权术把我们人类玩弄于股掌之间的那一天,还有多远?


高阶心智理论

 

这次的研究,探讨了LLM究竟能在多大程度上发展高阶心智理论(higher-order ToM)。

所谓高阶心智理论,就是人类以递归方式,推理他人的多种心理和情感状态的能力。

比如,「我认为你相信她知道」这句话中,就包含了非常复杂的多层推理,属于一个三阶陈述。

在以前,大部分相关研究,都集中在二阶ToM上。


用什么样的方法,能衡量出LLM对如此复杂问题的把握能力?

团队特意引入了一套手写测试套件——多阶心智理论问答测试。

而参与PK的选手,有5个LLM和一大群成年人。

 

每日福利更多>>

小米辣920:直播界的“百变歌姬”,用音乐诠释多元魅力 华为到底有哪些部门?一图看懂 华为官宣,Pura 80来了,两个半小时预约人数突破4万! 京东方推出全球首款13.3寸FMLOC集成AES 3.0 主动笔OLED 严禁携带手机等违禁物品!省教育考试院发布高考温馨提醒 小米P15ZM充电宝口袋版限时特惠,直降34元仅需75.65元 小鹏和华为 这slogan好熟悉, 看见未来,为何不buy Q1全球手机市场排名出炉:小米第三,苹果第二,第一不是华为! 包头市青山区三星小学——聚焦教研促提升,共筑教育新未来 北京城市副中心成为国内首个绿建三星级标准地区 手机、电脑屏幕脏了能用酒精擦吗?正确方式 618限时特惠 华硕a豆14 Air悦享版 国补后仅需4239元起 联想来酷“斗战者战 7000”官宣,号称全民超能游戏本 小米辅助驾驶再迎大将 前一汽南京CTO陈光加入 福建:与华为就海洋经济达成合作意向 拟组建数字海洋建设工作专班 OPPO Find X9 Ultra首曝:双2亿像素史无前例 戴尔 Pro Max Plus:独立 NPU 登陆移动端 毕业季购机前瞻,高性能轻薄本华硕天选Air 2025首发到手7099元 每日网签 | 5月28日北京新房网签328套、二手房网签823套 燕郊楼市现“调价补差”项目 推动\"去存量\" 与 \"促消费\" 良性循环 铁头TILTA索尼A7/A9套件选配件9.9元热卖 小米15S Pro更新澎湃OS2.0.126体验:不吐不快,真实感受 配备专业背滤系统:小米米家智能桌面鱼缸国补后 205 元新低 曝华为nova 13系列出货量超650万部 标准版是主力 RTX 5050入门笔记本功耗居然涨了!最低也有50W 三星电机拟引入喷墨打印技术生产镜头模块 最早或用于Galaxy S26系列旗舰机 谷歌处理器告别三星代工,可能不只是因为“嫌弃” 618购机指南:华硕天选6 Pro、ROG枪神9超竞系列以及ROG幻16 Air满足你的不同需求 城商行陆续下调存款利率 利率降至“1字头” 美国3月份房价涨幅放缓 但供应紧张地区买家仍深陷竞价战