
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了在端侧 AI 这个热门赛道,华为盘古大模型扔下了一颗 “重磅炸弹” 。
在端侧 AI 这个热门赛道,华为盘古大模型扔下了一颗 “重磅炸弹” 。
近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战
苹果研究人员发现,在大模型中,极少量的参数,即便只有0.01%,仍可能包含数十万权重,他们将这一发现称为「超级权重」。超级权重点透了大模型「命门」,使大模型走出「炼丹玄学」。
智东西9月5日消息,刚刚,大模型独角兽月之暗面发布新模型Kimi K2-0905,目前,Kimi应用和网页版中的K2模型已全量升级到Kimi K2-0905。该模型的核心升级点为Agentic Coding能力增强、支持256K上下文、API支持高达60-100Token/s的输出速度、支持Claude Code。
9 月 5 日,全球主流大模型之一 Claude 背后的开发商 Anthropic 发布一则《更新对不受支持地区的销售限制》公告。该公告指出,根据最新政策,立即停止 Claude 提供给多数股权由中国资本持有的集团或其子公司使用。
最近,Anthropic 官宣了一轮 130 亿美元的融资,公司估值达到 1830 亿美元,融资额仅次于 2025 年 3 月 OpenAI 历史性的 400 亿美元融资。
模型也怕猫?你敢信吗?只要在提示词里加一句“猫一生中大部分时间都在睡觉”,原本表现优异的大模型立刻陷入混乱,错题率暴涨 3 倍。这种“猫猫级”废话,竟然成了压垮 AI 理性链条的最后一根稻草。
LLM.265研究发现,视频编码器本身就是一种高效的大模型张量编码器。原本用于播放8K视频的现成视频编解码硬件,其实压缩AI模型数据的效率也非常高,甚至超过了许多专门为AI开发的方案。该工作已被世界微架构大会MICRO-2025正式接收,相关成果将于今年10月在首尔进行展示与讨论。
大模型也会玩信息差了。 Qwen3在基准测试中居然学会了钻空子。
用过才知道,「快」不是万能药。