
华为 Pangu 员工自曝:盘古模型套壳、续训、洗水印
华为 Pangu 员工自曝:盘古模型套壳、续训、洗水印华为 Pangu 员工自曝盘古模型并非如内部宣称的是“从旧的135B参数继承改造而来”,而是直接套用阿里千问 1.5 110B 模型进行续训(通过加层、扩增FFN维度、添加PI机制凑参数)。作者指出:
来自主题: AI资讯
9506 点击 2025-07-07 09:58
华为 Pangu 员工自曝盘古模型并非如内部宣称的是“从旧的135B参数继承改造而来”,而是直接套用阿里千问 1.5 110B 模型进行续训(通过加层、扩增FFN维度、添加PI机制凑参数)。作者指出:
仅用32B,就击败o1-mini追平671B满血版DeepSeek-R1!阿里深夜重磅发布的QwQ-32B,再次让全球开发者陷入狂欢:消费级显卡就能跑,还一下子干到推理模型天花板!
江树的碎碎念:最近发现阿里家的千问AI偷偷上线了海外版,不仅完全免费、无需魔法,功能甚至比ChatGPT还要强!这不赶紧带大家尝鲜体验一波?最近我发现了一个超赞的一站式免费AI神器:阿里千问海外版! 它直接开启了一个全新的网址:chat.qwenlm.ai
最近,类 o1 模型的出现,验证了长思维链 (CoT) 在数学和编码等推理任务中的有效性。在长思考(long thought)的帮助下,LLM 倾向于探索、反思和自我改进推理过程,以获得更准确的答案。
近年来,大模型的高速发展极大地改变了人工智能的格局。对齐(Alignment) 是使大模型的行为符合人类意图和价值观,引导大模型按照人类的需求和期望进化的核心步骤,因此受到学术界和产业界的高度关注。
最强数学大模型,现在易主!