
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?
复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。
大语言模型遇上加密数据,即使是最新Qwen3也直冒冷汗!
2025年,英伟达创始人兼CEO黄仁勋提出的“AI工厂”,正在中国半导体行业落地生根——不同于传统工厂将原材料转化为产品,AI工厂是将数据和算力转化为智能服务,帮助企业降本增效。
真乐观的科学家和创业者们常低估人性的缺陷,而高谈阔论的历史和哲学家们,在描绘悲观问题时又很难提出解决方案。
既当裁判员,又当运动员?
第一财经「新皮层」独家获得消息称,小红书已将内部大模型技术与应用产品团队升级为「hi lab」(人文智能实验室,Humane Intelligence Lab)。同时,小红书今年年初开始组建「AI人文训练师」团队,邀请有深厚人文背景的研究者与AI领域的算法工程师、科学家共同完成对AI的后训练,以训练AI具有更好的人文素养以及表现上的一致性。而这个「AI人文训练师」团队也隶属于「hi lab」。
近期,具身智能公司「优理奇机器人 UniX AI」完成数亿元天使轮及天使+轮融资,中关村前沿基金,赛纳资本及长安私人资本参与本轮融资。本轮融资将用于加速研发多模态具身智能大模型与通用机器人本体的同步演进,以及面向多个泛商业服务和C端场景落地与交付。
大模型做数独,总体正确率只有15%???
在日益强调“思维能力”的大语言模型时代,如何让模型在“难”的问题上展开推理,而不是无差别地“想个不停”,成为当前智能推理研究的重要课题。