AI资讯新闻榜单内容搜索-大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大模型
「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!

来自主题: AI资讯
7820 点击    2025-07-20 23:43
国内首批!理想汽车荣首批汽车生成式人工智能安全测评认证

国内首批!理想汽车荣首批汽车生成式人工智能安全测评认证

国内首批!理想汽车荣首批汽车生成式人工智能安全测评认证

理想汽车车载大模型荣获由CCIA汽车网络安全工作委员会颁发的《生成内容安全测评证书》,及人工智能生成合成内容标识服务平台颁发的《生成合成内容标识报告》,成为国内首批通过GB/T 45654、GB 45438-2025双国标认证的车企

来自主题: AI资讯
7505 点击    2025-07-20 23:02
大模型竞赛转向:决胜关键为何是“后训练”?

大模型竞赛转向:决胜关键为何是“后训练”?

大模型竞赛转向:决胜关键为何是“后训练”?

随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透,AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练(Post-training),正从过去锦上添花的“调优”环节,演变为决定模型最终价值的“主战场”。

来自主题: AI技术研报
6217 点击    2025-07-20 12:30
超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。

来自主题: AI技术研报
5631 点击    2025-07-20 11:50
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍

7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍

7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍

在没有标准答案的开放式对话中,RL该怎么做?多轮对话是大模型最典型的开放任务:高频、多轮、强情境依赖,且“好回复”因人而异。

来自主题: AI技术研报
6559 点击    2025-07-19 11:13
AI教父Hinton暴论:AI永生之日,全人类变烤面包倒计时!

AI教父Hinton暴论:AI永生之日,全人类变烤面包倒计时!

AI教父Hinton暴论:AI永生之日,全人类变烤面包倒计时!

AI永生,迟早比人更聪明!Hinton惊人预言:开发超级智能,就是与虎为伴,稍有不慎,人类万劫不复!

来自主题: AI资讯
5669 点击    2025-07-19 10:51
Claude Code 高级用户遭遇无预警使用限制,Anthropic 回应含糊

Claude Code 高级用户遭遇无预警使用限制,Anthropic 回应含糊

Claude Code 高级用户遭遇无预警使用限制,Anthropic 回应含糊

近期,Anthropic 旗下的旗舰编码助手 Claude Code 的 Max 用户(每月200美元)遭遇无预警限流,平台未提供清晰说明,也无提前通知,引发广泛不满和用户信任危机。这起事件不仅暴露了大模型服务商在资源管理上的短板,也揭示出当前 AI 订阅制平台在“透明度”与“服务承诺”之间的矛盾。

来自主题: AI资讯
7691 点击    2025-07-18 16:24
整合武田等16家药企数据!AI制药平台「首次」商业化,华为、Owkin押注联邦学习!

整合武田等16家药企数据!AI制药平台「首次」商业化,华为、Owkin押注联邦学习!

整合武田等16家药企数据!AI制药平台「首次」商业化,华为、Owkin押注联邦学习!

近日,日本AI制药公司Elix与AI生命科学合作组织Life Intelligence Consortium(简称“LINC”)宣布,在全球首次实现了 AI 药物发现平台的商业化。

来自主题: AI资讯
6119 点击    2025-07-18 13:34
大模型转行土木工程!首个「打灰人」评估基准:检验读、改工程图纸能力

大模型转行土木工程!首个「打灰人」评估基准:检验读、改工程图纸能力

大模型转行土木工程!首个「打灰人」评估基准:检验读、改工程图纸能力

首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以满足工程一线需求。

来自主题: AI技术研报
5925 点击    2025-07-18 12:58