不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件
不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件没有训练梯度的AI,打破了Atari游戏满分纪录。OpenAI核心研究员翁家翌提出了一个强化学习新范式——启发式学习(Heuristic Learning, HL)。
搜索
没有训练梯度的AI,打破了Atari游戏满分纪录。OpenAI核心研究员翁家翌提出了一个强化学习新范式——启发式学习(Heuristic Learning, HL)。
如果你这周自己写了求职信,你输给的并不是更好的候选人。你输给了一个更差的候选人,他花了 20 美元给 OpenAI。 今年初,马里兰大学、新加坡国立大学和俄亥俄州立大学的三位研究者从 LiveCare
刚刚,在X上Claude Code工程师Thariq的一篇分享——他几乎停止使用 Markdown,转而使用 Claude Code 生成 HTML 文件。在短短几个小时里,这篇帖子的浏览量就突破了 200 万。
中国移动发布Token运营体系,不是简单卖AI算力,而是要把网络、算力、模型、应用和10亿用户连接起来,打造AI时代的「新梦网」。
刚刚,xAI再失一名华人大将。就在今天,预训练负责人庄钧堂官宣了自己的离职消息。此前,庄钧堂已经在xAI工作了两年。这期间,他主导了从Grok 2到Grok 5的全系列预训练,同时负责Grok在X和Tesla上的语音模型及xAI企业API模型。
MiniMax M2 系列受到了开发者社区的广泛关注,不少用户在深度使用中发现了一些个例问题,其中“模型无法说出马嘉祺”这个问题引发了较多讨论。 我们也注意到,社区中有不少开发者对这个现象进行了高质量
Jim Fan 在红杉资本 AI Ascent 最新观点,信息量极大,机器人物理AI很快就会迎来突破,答案就在视频模型,路径就是LLM的突破路径,Jim Fan把机器人的未来路线图比作文明游戏里的科技树,还剩三个成就要解锁,2040年就是终局
这场Musk v. 奥特曼审判,正在把OpenAI最不想公开的内部裂痕一次性摊开:前CTO Mira Murati作证称奥特曼曾在模型安全审批上误导她,还长期制造高管间的「混乱与不信任」。核心看点不只是八卦,而是OpenAI到底是怎样从「非营利理想」一步步走到今天的权力与利益之争,这会直接影响外界对OpenAI、治理、AI安全和公司合法性的判断。
就在今天,OpenAI 的 Codex 团队开发者体验工程师 Jason Liu 发推公布了一个「小而有爱」的项目:OpenAI 官方推出了命令行界面工具 openai-cli,开发者只需在终端敲下一行命令,即可直接与 OpenAI 的最新模型深度交互,打破了过去SDK的限制。
就在昨天,全球AI四极格局一夜崩塌!xAI解散、22万张GPU归入Anthropic,下一代模型三大方向也曝光了。今天,Anthropic研究院成立,AI 2027的许多预言已经成真——AI终局战,已经刺刀见红。