AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
Shopee OnePiece:业内首个融合上下文工程、隐式推理和多目标训练策略的生成式搜推建模框架

Shopee OnePiece:业内首个融合上下文工程、隐式推理和多目标训练策略的生成式搜推建模框架

Shopee OnePiece:业内首个融合上下文工程、隐式推理和多目标训练策略的生成式搜推建模框架

2025 年,生成式推荐(Generative Recommender,GR)的发展如火如荼,其背后主要的驱动力源自大语言模型(LLM)那诱人的 scaling law 和通用建模能力(general-purpose modeling),将这种能力迁移至搜推广工业级系统大概是这两年每一个从业者孜孜不倦的追求。

来自主题: AI资讯
7034 点击    2025-09-28 18:14
免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

杜克大学团队发现,扩散大语言模型只需关注少量「中奖」token,就能在推理时把速度提升61-97倍,还能让模型更懂格式、更听话。新策略DPad不训练也能零成本挑出关键信息,实现「少算多准」的双赢。

来自主题: AI技术研报
7833 点击    2025-09-28 09:51
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。 然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视

来自主题: AI技术研报
6964 点击    2025-09-26 13:30
万字追问:鸡娃,还是躺平?大语言模型也有教育困境

万字追问:鸡娃,还是躺平?大语言模型也有教育困境

万字追问:鸡娃,还是躺平?大语言模型也有教育困境

其实大语言模型的“教育”问题也差不多。研究者在训练和使用这些模型时,离不开提示词。这就像一份人生剧本,告诉模型“你是谁?”“你要做什么?”“你能做到哪里?”但问题是,提示词到底应该像家长一样,

来自主题: AI技术研报
6922 点击    2025-09-26 10:32
少即是多!78条数据完胜1万条? 高质量数据才是AI真壁垒|上交大/SII最新

少即是多!78条数据完胜1万条? 高质量数据才是AI真壁垒|上交大/SII最新

少即是多!78条数据完胜1万条? 高质量数据才是AI真壁垒|上交大/SII最新

对于提升AI能主动发现问题、提出假设、调用工具并执行解决方案,在真实环境里闭环工作,而不只是在对话里“想”的智能体能力(Agency)。在这篇论文之前的传统方法认为,需要遵循传统语言模型的“规模法则”(Scaling Laws)才能实现,即投入更多的数据就能获得更好的性能。

来自主题: AI技术研报
7758 点击    2025-09-25 15:21
LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典

LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典

LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典

刚刚,Meta FAIR推出了代码世界模型!CWM(Code World Model),一个参数量为32B、上下文大小达131k token的密集语言模型,专为代码生成和推理打造的研究模型。这是全球首个将世界模型系统性引入代码生成的语言模型。

来自主题: AI资讯
9544 点击    2025-09-25 11:20
美团王兴,又开源一款大模型!

美团王兴,又开源一款大模型!

美团王兴,又开源一款大模型!

最近,美团在AI开源赛道上在猛踩加速。今天,在开源其首款大语言模型仅仅24天后,美团又开源了其首款自研推理模型LongCat-Flash-Thinking。与其基础模型LongCat-Flash类似,效率也是LongCat-Flash-Thinking的最大特点。美团在技术报告中透露,LongCat-Flash-Thinking在自研的DORA强化学习基础设施完成训练

来自主题: AI技术研报
8093 点击    2025-09-22 23:05
这一次,天玑9500的端侧AI能力,友商赶不上了

这一次,天玑9500的端侧AI能力,友商赶不上了

这一次,天玑9500的端侧AI能力,友商赶不上了

9 月 22 日下午,联发科推出的新一代旗舰 5G 智能体 AI 芯片 —— 天玑 9500,并展示了一系列新形态端侧的 AI 应用,在公众层面首次推动端侧 AI 从尝鲜到好用。现在,让手机端大语言模型(LLM)处理一段超长的文本,最长支持 128K 字元,它只需要两秒就能总结出会议纪要,AI 还能自动修改你的错别字。

来自主题: AI资讯
7513 点击    2025-09-22 19:09
突破单链思考上限,清华团队提出原生「并行思考」scale范式

突破单链思考上限,清华团队提出原生「并行思考」scale范式

突破单链思考上限,清华团队提出原生「并行思考」scale范式

近年来,大语言模型(LLMs)在复杂推理任务上的能力突飞猛进,这在很大程度上得益于深度思考的策略,即通过增加测试时(test-time)的计算量,让模型生成更长的思维链(Chain-of-Thought)。

来自主题: AI技术研报
7055 点击    2025-09-18 14:49
1个 AI Agent=4个工厂老师傅?|和王筱圃聊时序大模型和 toB Agent 这门生意

1个 AI Agent=4个工厂老师傅?|和王筱圃聊时序大模型和 toB Agent 这门生意

1个 AI Agent=4个工厂老师傅?|和王筱圃聊时序大模型和 toB Agent 这门生意

本周,我们关注 Agent 与工业结合正在发生的变化,我们邀请研发时序大模型 Geegobyte-g1 以及工业智能体平台「河谷」的初创企业极峰科技的创始人王筱圃,和我们聊一聊什么是时序大模型,和大语言模型的区别和具体的案例,他们如何训练一个 Agent 并把它卖给企业投入到生产流程中。希望能对大家了解 AI Agent 如何应用于工业生产有所帮助。

来自主题: AI资讯
7941 点击    2025-09-17 09:29