AI资讯新闻榜单内容搜索-Mark

Sarah Guo：能被 Benchmark 衡量的工作，都不应该是你的创业方向

今年开年以来，不管是硅谷、还是国内的 AI 投资圈子，都不太敢投 AI 应用了。

来自主题: AI资讯

8283 点击 2026-06-12 10:14

根据我长期使用的观察，0.3 倍率说是用 Kiro 逆向出来的 Claude，2.0 倍率说是正经 Claude Max 号池接出来的。听起来后者肯定更靠谱。我一开始也这么想的。毕竟倍率差了快七倍，价格摆在那，总不至于拿假货糊弄人吧。

来自主题: AI资讯

9050 点击 2026-06-11 16:53

之前预告过的那个「手机上的 Markdown / HTML 阅读器」做完了,叫即览。

来自主题: AI资讯

8906 点击 2026-06-09 14:06

近日，来自清华大学智能产业研究院（AIR）的团队联合北京智源研究院（BAAI）、北京大学、南京大学等机构构建了一个基准：GeoCodeBench。这是一个面向 3D 几何计算机视觉的 PhD 级 coding benchmark，

来自主题: AI技术研报

8946 点击 2026-06-07 10:54

2026 年初，国内具身智能赛道掀起了一波开源潮，越来越多团队开始公开自己的视觉-语言-动作（VLA）模型、数据集与训练框架。与此同时，行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上，尤其是在标准化或已训练任务中的表现。

来自主题: AI技术研报

8197 点击 2026-05-29 09:19

“Claude 可能比你更擅长从你这里提取出你想要和需要的东西，而不是由你向 Claude 详细指定。”

来自主题: AI资讯

6225 点击 2026-05-25 09:50

Mechanize 发布了一项硬核测试：给前沿 AI coding agents 24 小时，用 Rust 从零写一个完整的 Game Boy Advance 模拟器，再和顶级开源模拟器 Mesen2 逐帧对比打分。

来自主题: AI技术研报

7958 点击 2026-05-18 16:48

Markdown，当死。

来自主题: AI资讯

10477 点击 2026-05-12 14:54

Claw-Eval-Live提出「活的」benchmark概念，通过信号采集与任务筛选，确保评测内容紧跟企业实际痛点，而非固定不变的题库。评测不仅关注结果，还追踪执行过程，从数据调用到状态变更，全面验证Agent的真实能力。

来自主题: AI技术研报

6366 点击 2026-05-11 16:08

刚刚，在X上Claude Code工程师Thariq的一篇分享——他几乎停止使用 Markdown，转而使用 Claude Code 生成 HTML 文件。在短短几个小时里，这篇帖子的浏览量就突破了 200 万。

来自主题: AI技术研报

9062 点击 2026-05-09 13:20