均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事
均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。
大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。
最近,曾任字节智慧教育业务线 CEO 的李可佳(Ethan KJ Li)也入局了“AI 播客”,只不过它的思路与前两位并不相同。李可佳的产品名为 Aibrary,于今年 4 月 23 日上线美区 App Store 进行测试,9 月 23 日正式上线。从官网上的介绍来看,Aibrary 的核心功能是把书籍转化/重塑为个性化播客,并通过定制学习路径、互动式辅导,服务于个人学习场景。
本周,LangChain 宣布完成 1.25 亿美元融资,投后估值 12.5 亿美元。除了宣布其独角兽地位外,该公司还发布了里程碑式更新:经过 3 年迭代,LangChain 1.0 正式登场。而且,这并非一次常规的版本升级,而是一场从零开始的重写。
10 月 23 日,一向不爱出风头的夸克上线了对话助手,可以让用户在一个 App 内即可完成信息查找、问题解答与任务处理,实现了 AI 搜索与对话的深度融合。其中一大亮点就是,该对话助手采用了 Qwen 最新闭源模型。至于是哪个型号、性能有多强,夸克卖了个关子,只透露比 Qwen3-Max 更进一步,在业界有绝对领先性。
近两三年,在技术演进下,“AI虚拟细胞”成为备受关注的热门赛道。AI虚拟细胞平台公司「百曜科技」近日完成数千万元天使轮融资,由峰瑞资本领投,顺禧资本跟投,明德资本担任独家财务顾问。
全球六大LLM实盘厮杀,新王登基!今天,Qwen3 Max凭借一波「快狠准」操作,逆袭DeepSeek夺下第一。Qwen3 Max,一骑绝尘! 而GPT-5则接替Gemini 2.5 Pro,成为「最会赔钱」的AI。照目前这个趋势,估计很快就要跌没了……
人工智能模型的安全对齐问题,一直像悬在头顶的达摩克利斯之剑。 自对抗样本被发现以来,这一安全对齐缺陷,广泛、长期地存在与不同的深度学习模型中。
时隔两月,Baichuan-M2 Plus重磅出世!成为业内首个循证增强的医疗大模型,幻觉要比DeepSeek-R1低3倍,可信度比肩资深临床专家。新模型将「循证医学」理念深度融入训练和推理,通过首创「六源循证范式」,模拟人类医生思维,有效辨别不同层级医学证据、评估其可靠性,并在回答中优先引用高等级证据。
年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成了最常见的 RL 算法。
10月23日,AI应用公司LiblibAI宣布完成1.3亿美元B轮融资,由红杉中国、CMC资本及一战略投资方联合领投,多家老股东超额增持。高榕创投曾于2023年联合领投LiblibAI天使轮。 在AI