Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏
Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏刚刚,Anthropic 发布了一项新研究成果。今天,他们发布的成果是《Natural emergent misalignment from reward hacking》,来自 Anthropic 对齐团队(Alignment Team)。他们发现,现实中的 AI 训练过程可能会意外产生未对齐的(misaligned)模型。
刚刚,Anthropic 发布了一项新研究成果。今天,他们发布的成果是《Natural emergent misalignment from reward hacking》,来自 Anthropic 对齐团队(Alignment Team)。他们发现,现实中的 AI 训练过程可能会意外产生未对齐的(misaligned)模型。
总部位于旧金山的初创公司 Deep Cogito 发布了其最新一代旗舰模型 Cogito v2.1 671B。公司 CEO Drishan Arora 在社交平台 X 上豪情万丈地宣布:“今天,我们发布了由美国公司制造的最好的开源大语言模型。”
专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破,但也带来了一个重要问题:越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作
11 月 21 日,AI 初创公司 Genspark 正式宣布完成 2.75 亿美元 B 轮融资。上线仅五个月,Genspark 年化收入已突破 5000 万美元,跻身行业增长最快的 AI 企业之一。
一家名为 Poly 的 YC 孵化创业公司宣布完成了 800 万美元的种子轮融资,由 Felicis 领投。这本身并不特别,但让我深感震撼的是他们想要解决的问题:彻底重新发明文件系统本身。Poly 的创始人 Abhay Agarwal 说了一句让我印象深刻的话:"在 AI 优先的世界里,文件系统本身必须进化。
11 月 3 日,全球知名游戏博主 PewDiePie 发布视频,展示其自建本地 AI 系统的全过程。该视频目前浏览量已经超过 300 万,视频标题则赫然写着双关梗 “STOP: Using AI Right now”。
AI 洞见正在系统拆解全球增长最快、「估值超十亿美元」的 AI 企业,希望用真正跑通的商业模式,增强创业者进入 AI 的信心。
近期,《Arc Raiders》宣布即将推出双人合作模式,以及类似《Helldivers 2》的社区任务活动——但在玩家还没来得及为新玩法兴奋之前,这款游戏的开发商 Embark Studios 却陷入了另一场更棘手的争议:再度被曝使用生成式 AI 进行游戏配音。
“What is meant often goes far beyond what is said, and that is what makes conversation possible.” ——H. P. Grice
ZP独家获悉,聚焦大模型合成数据领域的 AI 创业公司“数创弧光(DataArc)”已于近期连续完成种子轮及种子+轮融资,累计融资额达数千万元人民币,投后估值数亿元。两轮融资分别由英诺天使基金与东方富海领投,君科丹木、数字未来、启迪之星等一线财务投资机构,以及深智城、头部云厂商等产业资本共同参与。