谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-13
稳健前行,贵州茅台2025半年报发布 扣非净利连亏九年!这家公司再度筹划“易主”反转来了 好想你:廖小军申请辞去公司独立董事等职务 五矿新能:不向下修正“锂科转债”转股价格后续反转 “京东方之父”王东升的第三家IPO来了! 通合科技:91名激励对象合计41万股符合归属条件学习了 龙芯中科控股股东天童芯源的一致行动人询价转让合计550万股 贵州茅台发布2025年半年报,实现营业总收入910.94亿元后续会怎么发展 半年少卖了11亿,康师傅不“香”了?官方已经证实 泽达易盛财务造假案后续:中介机构赔付后连发三纸诉状追偿,格尔软件等39名被告遭索赔逾3亿元这么做真的好么? 同仁堂的资本局:扶持医养公司,三“闯”港交所官方处理结果 大连友谊:公司将继续按照上市公司的监管要求,认真履行信息披露职责后续反转 A股创年内新高,慢牛已成共识? 0812热点追踪:纯碱暴力拉升,背后真相太残酷!最新报道 160小时! 一边超时加班,一边通报表扬! 违法加班很普遍?是真的? 特斯拉印度第二家展厅已经开业 超级充电站也已开通 美的能源这盘棋这么做真的好么? 宁德时代极片项目在青海西宁开工学习了 起拍价超6000万元,法院将拍卖两只涉刑案“百达翡丽腕表”,所涉企业老板被判无期徒刑实测是真的 虚增收入成本近200亿!*ST高鸿(000851)严重财务造假,或被强制退市官方处理结果 广汽即将发布全新星源增程技术,破局增程车亏电痛点? 国家卫星气象中心风云三号数据中心样板点正式发布官方已经证实 朱华荣、尹同跃、冯兴亚、项兴初……为何大佬们密集“捧”华为学习了 8月12日,港股三大指数涨跌不一,炒港股用什么APP?新浪财经APP五大优势透视太强大了 国家卫星气象中心风云三号数据中心样板点正式发布秒懂 瑞银上调快手目标价至95.37港元 光库科技:拟购买苏州安捷讯光电100%股权,股票今起复牌后续会怎么发展 林平发展IPO,顶着“反内卷”扩产百万吨 个人消费贷款财政贴息方案出炉!覆盖家用汽车、家装家居等领域秒懂 证监会再出重拳!这些上市公司被严惩,遭受损失的股民或可维权! 万联证券保荐芭薇股份IPO项目质量评级B级 实际募资0.53亿元较预期大幅缩水 承销保荐佣金率较高 销量七连涨!上汽集团以破局之势领跑行业,下半年剑指更高峰学习了 连板股追踪丨A股今日共60只个股涨停 吉视传媒收获4连板最新进展 英氏控股IPO:业绩增长疲态尽显用近4成收入营销、研发费用率<1% 除米粉外辅食全靠代工、频因品控问题遭控诉科技水平又一个里程碑 4只A股被外资买到限购,一浙股在列科技水平又一个里程碑 华夏银行:董秘杨伟任职资格获批后续来了 龙国首都汇源发布制止龙国首都每日优鲜品牌管理有限公司擅自以“汇源”名义对外招商事项的声明官方通报来了 朗源股份再次递交立案,两类投资者还可加入后续反转来了 人形机器人厂商花式“出圈”,谁是下一个“爆款”?

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章