
手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里
手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里在噪声污染严重影响预训练数据的质量时,如何能够高效且精细地精炼数据? 中科院计算所与阿里Qwen等团队联合提出RefineX,一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。
在噪声污染严重影响预训练数据的质量时,如何能够高效且精细地精炼数据? 中科院计算所与阿里Qwen等团队联合提出RefineX,一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。
昨晚凌晨,通义千问团队宣布,已对其旗舰模型 Qwen3 进行升级,并推出非思考模式(Non-thinking)的更新版本:Qwen3-235B-A22B-Instruct-2507-FP8。此次更新旨在提升模型的综合能力
7月21日,《朝鲜新报》发布了对金日成综合大学信息科学部人工智能技术研究所所长金光赫(김광혁)的专访。7月21日,《朝鲜新报》发布了对金日成综合大学信息科学部人工智能技术研究所所长金光赫(김광혁)的专访。
近日,月之暗面(Moonshot AI)正式发布了其万亿参数开源大模型Kimi K2,这一具有里程碑意义的AI模型凭借其创新的MoE架构和强大的Agentic能力迅速获得全球开发者关注。然而,随着用户量激增,部分开发者开始反映其API服务响应速度不尽如人意。面对这一情况,月之暗面于7月15日迅速作出官方回应,坦诚当前服务延迟问题,并详细说明了优化方案。
7月2日,一个跨国团队在Nature杂志发表了一项开创性研究,宣称其推出的AI系统能够“模拟人类心智”。该系统在实验中可以“扮演”人类,生成逼真的人类行为。
7 月 16 日,新一代作业帮AI学习机——P50 正式发布,重磅推出「AI 超级老师」功能,代表着学习机行业迈入「超级智能体」时代。
现有视频异常检测(Video Anomaly Detection, VAD)方法中,有监督方法依赖大量领域内训练数据,对未见过的异常场景泛化能力薄弱;而无需训练的方法虽借助大语言模型(LLMs)的世界知识实现检测,但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。
MiniMax 在 7 月 10 日面向全球举办了 M1 技术研讨会,邀请了来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾,就模型架构创新、RL训练、长上下文应用等领域进行了深入的探讨。
在没有标准答案的开放式对话中,RL该怎么做?多轮对话是大模型最典型的开放任务:高频、多轮、强情境依赖,且“好回复”因人而异。
华强北推出低价AI眼镜,价格78-450元,截胡小米、Rokid等巨头产品。产品分为AI拍摄眼镜和AI音频眼镜,功能基础但销量火爆,月均数千台。厂商快速组装出货,靠价格优势和即买即得吸引消费者尝鲜,性能虽逊但性价比高。行业前景存疑,技术成熟需5年,海外市场更受欢迎。