均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事
均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。
大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。
香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。
在 iPhone 上部署端侧 AI 模型,成了互联网的新显学。在 iPhone 上体验端侧模型,门槛其实不算高。打开 App Store,搜索 PocketPal AI,下载安装。如果不习惯英文界面,可以在设置 (Setting) 里找到语言 (Language) 选项,切换成中文。
AI模型是现在,Physical AI是未来
Anthropic用Haiku 4.5打响了AI性价比之战!曾经的顶配性能,如今以三分之一的价格、两倍的速度下放,可以说是对高价AI模型的一次降维打击。
奥特曼亲自飞赴首尔,与韩国总统、两大财阀巨头会晤并达成合作。三星电子与SK海力士将加速生产先进存储芯片,目标月产能达90万片DRAM晶圆,以满足OpenAI模型的需求。随着奥特曼逐渐握紧硬件的咽喉,留给竞争对手的时间,不多了。
起猛了,苹果怎么搞起跨界AI模型了??发布了一个基于流匹配的蛋白质折叠模型SimpleFold,被网友戏称为“iFold”。SimpleFold没有花里胡哨的专属模块设计,就靠通用的Transformer模块,搭配流匹配生成范式,3B参数版本追平了该领域顶流模型谷歌AlphaFold2的性能。
OpenAI发布最新研究,却在里面夸了一波Claude。他们提出名为GDPval的新基准,用来衡量AI模型在真实世界具有经济价值的任务上的表现。具体来说,GDPval覆盖了对美国GDP贡献最大的9个行业中的44种职业,这些职业年均创收合计达3万亿美元。任务基于平均拥有14年经验的行业专家的代表性工作设计而成。
刚刚完成1300万美元种子轮融资的Runware,正在用一种完全不同的方式重新定义AI基础设施。他们不依赖现成的云服务提供商,而是从零开始构建了自己的硬件和软件栈,创造出了所谓的"Sonic推理引擎"。这种垂直整合的方法让他们能够将AI推理成本降低高达90%,同时通过单一API提供对超过40万个AI模型的访问。
9月17日消息,AI领域的两大巨头Anthropic和OpenAI正致力于开发能够替代人类执行复杂工作的“AI同事”。其核心方法是使用模拟企业软件来训练AI模型,使其能像人类员工那样理解和操作真实的工作流程。