AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
想让LLM精确输出?试下XML格式Prompt语法约束解码GCD,帮你迭代收敛到稳定解

想让LLM精确输出?试下XML格式Prompt语法约束解码GCD,帮你迭代收敛到稳定解

想让LLM精确输出?试下XML格式Prompt语法约束解码GCD,帮你迭代收敛到稳定解

随着Agent的爆发,大型语言模型(LLM)的应用不再局限于生成日常对话,而是越来越多地被要求输出像JSON或XML这样的结构化数据。这种结构化输出对于确保安全性、与其他软件系统互操作以及执行下游自动化任务至关重要。

来自主题: AI技术研报
7215 点击    2025-09-16 10:19
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理,有开源平替版了。并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。

来自主题: AI技术研报
8861 点击    2025-09-16 10:02
LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准

LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准

LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准

北京深度逻辑智能科技有限公司推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施,其贡献是 “全家桶” 式的,包含了一整套开源的数据、基准和模型,希望以此加速 LSLM 领域的社区驱动式创新。

来自主题: AI技术研报
7436 点击    2025-09-15 08:39
谢菲尔德大学:模型幻觉的数学必然性

谢菲尔德大学:模型幻觉的数学必然性

谢菲尔德大学:模型幻觉的数学必然性

幻觉不是 bug,是数学上的宿命。 谢菲尔德大学的最新研究证明,大语言模型的幻觉问题在数学上不可避免—— 即使用完美的训练数据也无法根除。 而更为扎心的是,OpenAI 提出的置信度阈值方案虽能减少幻

来自主题: AI技术研报
9336 点击    2025-09-15 08:34
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

只用 1.5% 的内存预算,性能就能超越使用完整 KV cache 的模型,这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。

来自主题: AI技术研报
7275 点击    2025-09-15 08:33
扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。

来自主题: AI技术研报
8474 点击    2025-09-15 08:30
你知道吗?相较于产生幻觉,LLM其实更会「说谎」|卡梅隆最新

你知道吗?相较于产生幻觉,LLM其实更会「说谎」|卡梅隆最新

你知道吗?相较于产生幻觉,LLM其实更会「说谎」|卡梅隆最新

幻觉并非什么神秘现象,而是现代语言模型训练和评估方式下必然的统计结果。它是一种无意的、因不确定而产生的错误。根据OpenAI9月4号论文的证明,模型产生幻觉(Hallucination),是一种系统性缺陷。

来自主题: AI技术研报
8349 点击    2025-09-12 10:41
全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

训练、推理性价比创新高。 大语言模型(LLM),正在进入 Next Level。 周五凌晨,阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ,性能就可媲美千问 3 旗舰版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,实现了模型计算效率的重大突破。

来自主题: AI资讯
11088 点击    2025-09-12 10:10
李飞飞一年前究竟说了啥?怎么又火了

李飞飞一年前究竟说了啥?怎么又火了

李飞飞一年前究竟说了啥?怎么又火了

大语言模型的局限在哪里?

来自主题: AI技术研报
9716 点击    2025-09-11 19:26
意识智能体:大模型的下一个进化方向?

意识智能体:大模型的下一个进化方向?

意识智能体:大模型的下一个进化方向?

机器具备意识吗?本文对AI意识(AI consciousness)进行了考察,特别是深入探讨了大语言模型作为高级计算模型实例是否具备意识,以及AI意识的必要和充分条件。

来自主题: AI技术研报
8814 点击    2025-09-11 09:55