AI资讯新闻榜单内容搜索-Tasks

YC总裁转发、登顶Hacker News：SkillsBench揭开Agent技能扩展的残酷真相

近日，一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的论文预印本引爆了海外 AI 社区，YC 总裁 Garry Tan 亲自转发，登顶 Hacker News（363 票 / 163 评论），霸榜 AlphaXiv #1，

来自主题: AI技术研报

8071 点击 2026-03-07 11:08

一个模型统一所有离线任务！微软用671B大模型重构广告推荐「推理大脑」

近日，微软Bing Ads与DKI团队发表论文《AdNanny: One Reasoning LLM for All Offline Ads Recommendation Tasks》，宣布基于DeepSeek-R1 671B打造了统一的离线推理中枢AdNanny，用单一模型承载所有离线任务。这标志着从维护一系列任务特定模型，转向部署一个统一的、推理中心化的基础模型，从

来自主题: AI技术研报

10010 点击 2026-02-18 13:29

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

8802 点击 2025-10-20 10:13