被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估
被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估还在用枯燥的数学题和编程题测试AI?落伍啦!现在,打游戏就能测出AI的真实力。GameArena团队打造的Roblox新游《AI空间逃脱》,让你在紧张刺激的密室逃脱中,顺便就把AI模型的推理能力给评估了。这不仅比传统测试方法更有趣,还能生成宝贵的游戏数据,帮助开发者更全面地了解AI的强项与短板。
搜索
还在用枯燥的数学题和编程题测试AI?落伍啦!现在,打游戏就能测出AI的真实力。GameArena团队打造的Roblox新游《AI空间逃脱》,让你在紧张刺激的密室逃脱中,顺便就把AI模型的推理能力给评估了。这不仅比传统测试方法更有趣,还能生成宝贵的游戏数据,帮助开发者更全面地了解AI的强项与短板。
先是三星宣布智谱的Agentic GLM成为其新手机Galaxy S25的AI能力来源,紧接着The Information爆料,在经历了近一年的模型测试与合作伙伴探索后,苹果终于敲定了中国市场的合作伙伴:阿里巴巴。这意味着,中国iPhone用户很可能在今年迎来一个由国产大模型驱动的iPhone。
来自中科院自动化所的研究团队提出了用于大规模复杂三维场景的高效重建算法 CityGaussianV2,能够在快速实现训练和压缩的同时,得到精准的几何结构与逼真的实时渲染体验。该论文已接受于 ICLR`2025,其代码也已同步开源。
新年伊始,AI专家Gary Marcus发布长文,公布了他对2025年AI发展最新的25项预测,包括AGI、生成式AI、自动驾驶、人形机器人、视频生成、智能体等多个方向。虽然在2024年对OpenAI估值预测出错,但在最新的预测中仍不看好OpenAI。
4000 万用户、1.5 亿次生成、250 万站点、5 亿张图片。
GANs are so back!?
GAN已死?不,它卷土重来了!布朗大学和康奈尔大学的研究者刚刚提出了R3GAN,充分利用现代架构设计,彻底摒弃临时技巧,一半参数就能碾压扩散模型。网友惊呼:游戏规则要改变了!
Level AI 创始人 Ashish Nagar 具有深厚的 AI 背景,曾在亚马逊 Alexa 团队工作。他观察到传统客服行业存在质量监控效率低、数据价值难以挖掘、实时支持能力不足等问题,因此创立 Level AI。
游戏本质上是虚拟模拟,而虚拟模拟在过去的几十年里,一直是为了好玩而设计的。但是,我们将越来越多地看到它们在现实世界中用于各种用例,无论是培训、学习和发展,还是用于机器人和其他自主系统的训练场,亦或是可视化,来让人们实时看到事物变得栩栩如生。
按照惯例,三星通常会在每年1月举行Galaxy Unpacked特别活动,Galaxy S系列旗舰新品也将在这场活动中发布。不过,今年的情况似乎有些特殊,或许是Galaxy S24系列销量太好,截至12月中旬,三星仍没有开启预热活动。