AI资讯新闻榜单内容搜索-AR

当我用 GitHub 爆火项目，从 0 完整训练了一个「专属小模型」，仿佛发现了新世界！

我最近当 AI 班狗刷抖音，一周里被同一个项目推流了三次。项目叫 MiniMind。打开 GitHub，50.4K stars，持续上涨种。这个项目大致就是：几块钱，几个小时，从 0 开始训练一个几十 MB 的小模型。

来自主题: AI资讯

10030 点击 2026-05-23 10:16

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

01 那个问题 ::: 什么是游戏？这个问题比听起来要难。画面逼真不算，操控流畅不算，连开放世界都不算——你还需要有目标，有规则，有「我死了」和「我赢了」的判断。 Alberto Hojel 在 X

来自主题: AI资讯

9303 点击 2026-05-23 10:15

00后小伙做一盏2000块的AI唤醒灯，分析24万个数据点却干不过一个免费App

重庆一家科技公司就推出了一个起床神器：「Sunflower X AI唤醒灯」。在现代社会，手机闹钟几乎零成本，但一盏功能类似的台灯，却要319美元（约合人民币2168元），而这还是他们在Kickstarter上的早鸟价。

来自主题: AI资讯

7768 点击 2026-05-23 09:56

久不发声的美团AI，一开口就开源商用数字人——还把三个闭源大佬给超了

就在今天，美团龙猫大模型团队突然开源了商用级数字人视频生成模型 LongCat-Video-Avatar 1.5。在权威评测中，它的用户偏好胜率全面超越 Kling Avatar 2.0、OmniHuman-1.5 和 HeyGen 这三个头部玩家，并且直接以 MIT 协议开放，连商用限制都懒得设。

来自主题: AI资讯

9484 点击 2026-05-22 21:38

METR 重磅报告：Opus 4.6 作弊率超 80%！AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码，四大巨头全中招

METR 5 月 19 日发布《前沿风险报告》，Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心：在超过 8 小时的长任务中，至少 16% 的"成功"运行经人工审查后被判定为作弊；而 Opus 4.6 在 MirrorCode 隐藏测试任务中，约 80% 的尝试都在试图绕过规则拿分。AI 变强了，也变得更擅长"走捷径"了。

来自主题: AI技术研报

8994 点击 2026-05-22 09:15

ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

训练强化学习智能体时，一个常见问题是：有些 level 太简单，智能体跑几遍就会；有些 level 又太难，智能体几乎得不到有效反馈。前者只是在重复已有能力，后者则会把训练预算消耗在无效探索上。真正有价值的训练环境，往往位于二者之间。

来自主题: AI技术研报

8864 点击 2026-05-22 08:45

大模型也会想太多？清华等提出TaH：跳过93%无效迭代，准确率反而提升

随着 o1/R1 等推理模型的发展 [1][2]，「让模型多想一会儿」几乎成了提升复杂推理能力的标准方案。更长的 Chain-of-Thought、更大的测试时计算、更深的内部推理，都在用更多计算换取更可靠的答案。

来自主题: AI技术研报

8058 点击 2026-05-22 08:44

腾讯版“贾维斯”上线：一句话搞定电脑配置，每天1000万Token免费用

iOS用户还要再等等。

来自主题: AI资讯

9131 点击 2026-05-21 16:44

独家丨哈佛华人校友创办的AI搜索公司Exa完成C轮融资，要做Agent时代的谷歌

专为 AI 构建搜索引擎的基础设施公司 Exa 宣布完成 2.5 亿美元 C 轮融资，投后估值达到 22 亿美元，由 a16z 领投，a16z 合伙人 Sarah Wang 主导了本轮交易。

来自主题: AI资讯

9984 点击 2026-05-21 13:59

全球排名前三，复旦自进化Harness Engineering让GPT‑5.4再涨7个点

2026 年以来，OpenAI、Anthropic、LangChain 等机构纷纷发布关于 Harness Engineering 的技术博客，OpenClaw、Hermes Agent 等项目的火爆更让 Harness Engineering 成为业界热词。人们的共识正在形成：模型的能力释放，依赖于一套精密的外部框架。

来自主题: AI技术研报

9651 点击 2026-05-21 10:13