首页 > 生活分享 > 免费教学 > OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

发布时间:2025-11-14 20:00:34

如今的 AI 领域,大多数大语言模型在很大程度上仍以「黑箱」方式工作,即使是专业的研究者也难以完全理解它们的内部计算过程。因此,提升模型的透明度有助于分析和解释大语言模型产生幻觉、行为不稳定或在关键场景做出不可靠判断的潜在原因。

就在今天,OpenAI 发布了一项新研究,使用新方法来训练内部机制更易于解释的小型稀疏模型,其神经元之间的连接更少、更简单,从而观察它们的计算过程是否更容易被人理解。

与普通模型不同,OpenAI 发现可以从该稀疏模型中提取出简单、易于理解的部件来执行特定任务,例如在代码中正确结束字符串或跟踪变量类型。



下图为整体方法概览,首先训练权重稀疏的模型,然后针对精心挑选的一系列简单行为,将模型剪枝到仅保留完成该任务所需的节点子集。



论文一作 Leo Gao 表示,「通过隔离稀疏模型内部负责各种简单行为的微小电路,以前所未有的方式理解语言模型。」

免费教学更多>>

前横置V8缸发动机+前驱 大型豪华轿车发展中的一个插曲 经典路虎卫士V8升级,新增Octa风格内饰,售价高达19万英镑 智谱AutoGLM与豆包手机的分歧,是AI时代的安卓苹果之战? 关键信息基础设施安全保护支撑能力白皮书-以新质战斗力引领“AI+”时代网 TUXEDO推出新一代“台式机替代”Linux笔记本Gemini 17 - Gen4 预算卡死6K-8K?别慌!双12“甜点级”游戏本终极选购清单 小米米家轻量吸尘器开售:22000Pa最大吸力+ 40分钟续航 HPE扩展AI原生产品,以构建自动驾驶的网络战略重塑IT运营未来 下一个十年的AI发展图景 AI路边摊,下一个市民经济风口 周星驰《鹿鼎记》4K修复版重映首日票房仅18万 那些年比亚迪玩剩下的,都成了新能源行业的最新潮流 宋PLUS首夺德国插混月度销冠 比亚迪全球化驶入“快车道” AUDI E7X登场:设计升级空间拓展 动力配置丰富助力品牌布局 吉利博越L成家用SUV新宠,月销超3万,空间动力性价比全在线 “杭州湾卡宴” 来了!配三电机,预计40万起,明年就能看新车! 光梭未来1.0纯电重卡首发:以场景效能破局 开启绿色运力新征程 全新丰田RAV4 GR版亮相,C字大灯+悬浮双屏,搭载2.5L混合动力 豆包手机助手下线金融类应用能力,AI手机如何打消隐私担忧 智能助手也有自己的助手了?鸿蒙又整了什么新活儿 智能科技如何改变生活?一文讲清AI、大数据与物联网的应用 北京第六家苹果Apple Store官宣12月6日开业,店铺外观首秀 Tel Aviv大学团队破解视频编辑难题:让人像视频编辑既精准又自然 碾压π0.5,复旦团队:「世界模型+具身训练+强化学习」闭环框架 “新时代旗舰轿车” 岚图追光L将于12月10日压轴上市 告别“伪插混”!岚图追光L以综合续航1400km终结里程焦虑 商汤“1+X”再添新成员:联创王晓刚担任“大晓机器人”董事长 预算10万买插混轿车,合资新品东风日产N6,值得入手吗? 第九届世界十佳变速器评价及第四届世界十佳混动系统评价结果发布 乐道L60黑骑士版官图亮相 12月5日限量666台上市 外观内饰全黑化