仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3
仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon,通过构建业界最大规模的 10,000+ 条「评分标尺」,成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型,让 AI 告别「机械味」。
蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon,通过构建业界最大规模的 10,000+ 条「评分标尺」,成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型,让 AI 告别「机械味」。
本文介绍使用四块Framework主板构建AI推理集群的完整过程,并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器,采用mini ITX规格设计,可部署在10英寸标准机架中。
疑似GPT-5的系统提示词,在GitHub上被曝光了!我们把这份系统提示词里的关键指令梳理成了一个 「用户可见效果 ↔ 内部要求」对照表,大家可以对比看一下
8月23日,据“拟合论见”经多方消息确认,华为旗下的云计算业务已启动一场大规模组织优化调整,或波及上千人。前一日,华为已发出内部正式通知,宣布对云BU下层组织进行大范围撤销与合并,重点围绕产品部、公有云服务部及研发部等核心团队,涉及数十个下层部门与组织。
Grok-2正式开源,登上Hugging Face,9050亿参数+128k上下文有多猛?近万亿参数「巨兽」性能首曝。马斯克再现「超人」速度,AI帝国正在崛起。
OpenAI与Retro Biosciences合作,借助定制模型GPT-4b micro成功设计出优化版「山中因子」,大幅提升了成体细胞逆转为多能干细胞的效率。这一成果不仅改进了细胞工程,更展示了AI赋能生命科学研究的全新范式,加速科研进入全新时代。
前几天发了 Nano Banana 的测评之后很多朋友不知道怎么用,刚好最近用 Nano Banana 做手办图的玩法又火了。
姚班、伯克利、OpenAI、清华……年仅 30 多岁的吴翼身上已经聚集了众多亮眼的标签。
人工智能初创公司Upstage 从包括亚马逊和超威半导体在内的投资者处筹集了 4500 万美元,以加速其下一代模型的开发,并拓展美国和亚太市场。
ACM SIGGRAPH新执委正式公布!今年,一共选出3名执委,其中北京大学的陈宝权教授从候选人中脱颖而出,成功当选Director A。