AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 训练
长文本向量模型在4K Tokens 之外形同盲区?

长文本向量模型在4K Tokens 之外形同盲区?

长文本向量模型在4K Tokens 之外形同盲区?

2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统“大海捞针”(Needle-in-a-Haystack, NIAH)测试依赖关键词匹配的做法,它最大的特点是 通过精心设计问题和关键信息,迫使模型进行深层语义理解和推理,才能从长文本中找到答案。

来自主题: AI技术研报
3644 点击    2025-03-12 15:08
DeepSearch 与 DeepResearch 的设计和实现

DeepSearch 与 DeepResearch 的设计和实现

DeepSearch 与 DeepResearch 的设计和实现

这才 2 月份,深度搜索(Deep Search)就已经隐隐成为 2025 年的新搜索标准了。像谷歌和 OpenAI 这样的巨头,纷纷亮出自己的“Deep Research”产品,努力抢占这波技术浪潮的先机。(我们也很自豪,在同一天也发布了开源的node-deepresearch)。

来自主题: AI技术研报
8005 点击    2025-03-12 14:55
在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在 ChatGPT 爆火两年多的时间里,大语言模型的上下文窗口长度基准线被拉升,以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。

来自主题: AI技术研报
6934 点击    2025-03-12 14:53
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

OctoTools通过标准化工具卡和规划器,帮助LLMs高效完成复杂任务,无需额外训练。在16个任务中表现优异,比其他方法平均准确率高出9.3%,尤其在多步推理和工具使用方面优势明显。

来自主题: AI技术研报
5846 点击    2025-03-12 14:47
18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对,囊括了 18 种视频编辑任务。

来自主题: AI技术研报
6762 点击    2025-03-12 14:41
砍掉99%采样成本!腾讯AI Lab提出大模型无监督训练新技术

砍掉99%采样成本!腾讯AI Lab提出大模型无监督训练新技术

砍掉99%采样成本!腾讯AI Lab提出大模型无监督训练新技术

只要微调模型生成的前8-32个词,就能让大模型推理能力达到和传统监督训练一样的水平?

来自主题: AI技术研报
6483 点击    2025-03-12 13:41
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗?

来自主题: AI技术研报
7842 点击    2025-03-11 17:03