
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?
大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?
6 月 6 日,小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源了文本大模型 dots.llm1,采用 MIT 许可证。
第一财经「新皮层」独家获得消息称,小红书已将内部大模型技术与应用产品团队升级为「hi lab」(人文智能实验室,Humane Intelligence Lab)。同时,小红书今年年初开始组建「AI人文训练师」团队,邀请有深厚人文背景的研究者与AI领域的算法工程师、科学家共同完成对AI的后训练,以训练AI具有更好的人文素养以及表现上的一致性。而这个「AI人文训练师」团队也隶属于「hi lab」。
OpenAI至少已经是第二次与苹果旧将合作了。上次是Humane的AI Pin,以惨败收场;这次是io,已经有了原型,目标出货1亿台。
Humane 的创始人 Imran Chaudhri 和 Bethany Bongiorno 曾在苹果参与缔造了 iPhone、iPad 等划时代产品,深谙设计与用户体验之道。这样的背景,自然吸引了大量顶级风投的目光,也让 AI Pin 从一开始就自带“精英”和“颠覆者”的光环。
又一个AI硬件夭折了!爆火的Ai Pin曾获奥特曼投资,号称要革iPhone的命,如今却被曝出退货量超出销量,Humane公司以1.16亿美元被惠普收购。
Sakana AI发布了Transformer²新方法,通过奇异值微调和权重自适应策略,提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA;即便是从未见过的任务,比如MATH、HumanEval和ARC-Challenge等,性能也都取得了提升。
此前在今年年初的CES上,AI原生硬件在一众消费电子产品中抢走了C位。然而等到部分用户入手了号称要“替代手机”的可穿戴AI智能硬件Ai Pin以及掌上AI伴侣Rabbit R1后,赫然发现这些所谓的AI原生硬件是盛名之下其实难副。
Infactory.ai作为一款专注于事实审查的AI搜索引擎,旨在通过使用大语言模型理解搜索意图,而非直接生成搜索结果,以此来提供准确、透明的搜索结果,从根本上避免了搜索结果的幻觉问题,同时依然能提高用户使用搜索工具的效率。
AI硬件市场虽然目前市场规模相对较小,但增长速度较快,未来发展潜力巨大。目前市面上已经出现多款可穿戴性AI硬件设备,包括Humane推出的Ai Pin和Rabbite R1等。不仅各类初创公司涌现,多家巨型科技公司也布局其中。