AI资讯新闻榜单内容搜索-Mark

24小时从零写一个GBA模拟器！GPT-5.5跑出53分登顶，Gemini得了0.8分，底部还有两家交白卷

Mechanize 发布了一项硬核测试：给前沿 AI coding agents 24 小时，用 Rust 从零写一个完整的 Game Boy Advance 模拟器，再和顶级开源模拟器 Mesen2 逐帧对比打分。

来自主题: AI技术研报

10265 点击 2026-05-18 16:48

Markdown要凉…卡帕西也站HTML了

Markdown，当死。

来自主题: AI资讯

11070 点击 2026-05-12 14:54

Agent评测的下半场：为什么需要一个「活的」Benchmark？

Claw-Eval-Live提出「活的」benchmark概念，通过信号采集与任务筛选，确保评测内容紧跟企业实际痛点，而非固定不变的题库。评测不仅关注结果，还追踪执行过程，从数据调用到状态变更，全面验证Agent的真实能力。

来自主题: AI技术研报

6824 点击 2026-05-11 16:08

AI时代，HTML才是你所需要的一切？！

刚刚，在X上Claude Code工程师Thariq的一篇分享——他几乎停止使用 Markdown，转而使用 Claude Code 生成 HTML 文件。在短短几个小时里，这篇帖子的浏览量就突破了 200 万。

来自主题: AI技术研报

10201 点击 2026-05-09 13:20

27k Stars,零行代码 —— kepano/obsidian-skills 凭什么?

随手打开 GitHub,2026 年的 Agent 项目热榜上有这样一个仓库: • 27,000+ stars,1,800+ forks • 零行 Python,零行 TypeScript,零行 JS • 作者是 Obsidian 的 CEO 本人,kepano • 整个仓库就是 5 个 Markdown 文件

来自主题: AI资讯

10569 点击 2026-05-09 10:34

a16z投了一家“不看简历”的AI招聘公司

5月6日，主营AI招聘的初创公司Ethos宣布完成2275万美元（约合人民币1.55亿元）的A轮融资，由a16z领投，General Catalyst、XTX Markets、Evantic Capital和Common Magic跟投。

来自主题: AI资讯

10104 点击 2026-05-07 22:35

0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。

来自主题: AI技术研报

11795 点击 2026-05-07 15:31

从数学博士到英国“纳税王”：他用AI撑起千亿美金量化帝国

这个人叫 Alex Gerko，今年 46 岁，他是量化交易巨头 XTX Markets 的创始人。早在 ChatGPT 成为全民话题之前，他就已经搭建起一套纯粹以盈利为目的的 AI 交易系统。他在冰岛部署的这台超级计算机，正是 XTX 交易帝国的“算力大脑”。这台机器存储着超过 400 PB（约相当于 80 万亿张高清数码照片）的全球金融市场数据，并驱动着庞大的 GPU 集群。

来自主题: AI资讯

8019 点击 2026-04-27 09:54

拒绝透露姓名，神秘世界模型 MotuBrain 却拿了两个世界第一

一款名为 MotuBrain 的神秘世界模型，悄无声息地登上两个国际 benchmark 的榜首，没有任何公司署名。如果只是单榜第一，这件事或许并不稀奇。但问题在于，它同时拿下的，是两个几乎代表行业「两个极点」的榜单：一个是衡量世界模型「是否真正理解和预测现实世界」的 WorldArena

来自主题: AI资讯

9792 点击 2026-04-21 23:33

字节Seedance 2.0发论文了，171人署名，吴永辉曾妍在列

现象级AI视频技术、字节Seedance 2.0在arXiv发论文了。晒了26页的Benchmark，和贡献者名单。170位团队成员全公开，署名和尊重都拉满了，不过嘛这就不怕……嘛？

来自主题: AI资讯

9281 点击 2026-04-17 15:18