通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
《乳色吐息》19岁的阿奇姆彭可以出任中卫、右后卫,他与切尔西的合同至2029年6月30日。阿奇姆彭代表切尔西一线队出战过14场比赛,德转身价800万欧。就比如文章一开头提到的新能源汽车,在过去的2024年,产销量分别达1288.8万辆和1286.6万辆,同比分别增长34.4%和35.5%。在如今的大环境下,一个行业能取得如此亮眼的两位数增长殊为不易。但这种增长是否普遍惠及到了该行业的从业人员,特别是一线基层职工呢?答案则是否定的。《乳色吐息》www.7788.gov.cm另外,用户自身亦需擦亮眼睛。面对无弹窗、默认勾选或字体过小等可疑操作时,应提高警惕;善用法律武器维护“拒绝权”,让每一次点击都真正出自内心意愿。尽管背负无数荣誉,但梅西清楚自己是“新人”,必须靠球场上的表现赢得尊重。他认识一些熟悉的面孔:前巴萨队友内马尔,阿根廷同胞迪马利亚和帕雷德斯——他们常在场外聚会。他还对维拉蒂颇有好感,两人曾在伊比萨岛度假时有过接触。
20251207 🔞 《乳色吐息》报道称,日本在稀土加工、回收利用及减少用量方面具有优势。日本此次的一项提议是向美国提供这些技术,并帮助美国利用在全球开采的稀土。日本政府还探索在石墨和镓领域开展类似合作。此外,扩大进口美国液化天然气也在考虑范围内,目前已提出支持阿拉斯加新项目开发以及路易斯安那州和得州增产的提议。日本还计划从包括英伟达在内的美国公司购买数十亿美元的半导体产品。鉴于美国正加强本土芯片制造能力,日本将考虑协助生产芯片制造所需的晶圆等材料。在造船领域,日本计划考虑“以中国为考量因素”,与美国联合建造破冰船。7788.gov.cm最终,郑钦文2-0淘汰了拉杜卡努,晋级4强。随后,另外一块场地上,赛会8号种子阿尼西莫娃2-0淘汰了3号种子纳瓦罗。这样一来,郑钦文的半决赛对手也就敲定--阿尼西莫娃将和郑钦文争夺一张决赛的门票。
📸 郭海记者 杨玉芳 摄
20251207 🔞 《乳色吐息》此前,OceanBase在4月发布会上,对外宣布全面其拥抱AI时代的战略,将致力于构建Data x AI能力,面向AI时代推动一体化数据库向一体化数据底座演进。其中,OB Cloud作为其自研的原生分布式数据库,将全面拥抱向量检索、PowerRAG 等 AI 能力并提供一站式数据服务。www.zjzjzjzjzjy.gov.cn第二盘莱巴金娜一上来就实现破发,第6局萨巴伦卡破发追至3-3平。第7局莱巴金娜连下4分再次破发成功,此后她又在第9局再破萨巴伦卡发球局,6-3将比赛拖入决胜盘。
📸 岳建栋记者 毛赫男 摄
🔞 京东在二季度开始加大餐饮外卖的补贴力度。2025 年 5 月,在京东上,一个月平均每天打开它的人数跃升到 1.69 亿,这个数据时隔两年反超了美团。WWW.8X8X.gov.cn






