谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena
谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。
当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。
大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。
香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。
在 iPhone 上部署端侧 AI 模型,成了互联网的新显学。在 iPhone 上体验端侧模型,门槛其实不算高。打开 App Store,搜索 PocketPal AI,下载安装。如果不习惯英文界面,可以在设置 (Setting) 里找到语言 (Language) 选项,切换成中文。
AI模型是现在,Physical AI是未来
Anthropic用Haiku 4.5打响了AI性价比之战!曾经的顶配性能,如今以三分之一的价格、两倍的速度下放,可以说是对高价AI模型的一次降维打击。
奥特曼亲自飞赴首尔,与韩国总统、两大财阀巨头会晤并达成合作。三星电子与SK海力士将加速生产先进存储芯片,目标月产能达90万片DRAM晶圆,以满足OpenAI模型的需求。随着奥特曼逐渐握紧硬件的咽喉,留给竞争对手的时间,不多了。
起猛了,苹果怎么搞起跨界AI模型了??发布了一个基于流匹配的蛋白质折叠模型SimpleFold,被网友戏称为“iFold”。SimpleFold没有花里胡哨的专属模块设计,就靠通用的Transformer模块,搭配流匹配生成范式,3B参数版本追平了该领域顶流模型谷歌AlphaFold2的性能。
OpenAI发布最新研究,却在里面夸了一波Claude。他们提出名为GDPval的新基准,用来衡量AI模型在真实世界具有经济价值的任务上的表现。具体来说,GDPval覆盖了对美国GDP贡献最大的9个行业中的44种职业,这些职业年均创收合计达3万亿美元。任务基于平均拥有14年经验的行业专家的代表性工作设计而成。
刚刚完成1300万美元种子轮融资的Runware,正在用一种完全不同的方式重新定义AI基础设施。他们不依赖现成的云服务提供商,而是从零开始构建了自己的硬件和软件栈,创造出了所谓的"Sonic推理引擎"。这种垂直整合的方法让他们能够将AI推理成本降低高达90%,同时通过单一API提供对超过40万个AI模型的访问。