
「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶
「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!
基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!
理想汽车车载大模型荣获由CCIA汽车网络安全工作委员会颁发的《生成内容安全测评证书》,及人工智能生成合成内容标识服务平台颁发的《生成合成内容标识报告》,成为国内首批通过GB/T 45654、GB 45438-2025双国标认证的车企
随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透,AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练(Post-training),正从过去锦上添花的“调优”环节,演变为决定模型最终价值的“主战场”。
尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。
病理诊断,是AI改变医疗的关键环节。近年来,癌症诊断需求不断增长,随之而来的是病理科巨大的供给挑战。
在没有标准答案的开放式对话中,RL该怎么做?多轮对话是大模型最典型的开放任务:高频、多轮、强情境依赖,且“好回复”因人而异。
AI永生,迟早比人更聪明!Hinton惊人预言:开发超级智能,就是与虎为伴,稍有不慎,人类万劫不复!
近期,Anthropic 旗下的旗舰编码助手 Claude Code 的 Max 用户(每月200美元)遭遇无预警限流,平台未提供清晰说明,也无提前通知,引发广泛不满和用户信任危机。这起事件不仅暴露了大模型服务商在资源管理上的短板,也揭示出当前 AI 订阅制平台在“透明度”与“服务承诺”之间的矛盾。
近日,日本AI制药公司Elix与AI生命科学合作组织Life Intelligence Consortium(简称“LINC”)宣布,在全球首次实现了 AI 药物发现平台的商业化。
首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以满足工程一线需求。