AI资讯新闻榜单内容搜索-eva

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: eva
RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升

RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升

RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升

在当前大语言模型(LLMs)广泛应用于问答、对话等任务的背景下,如何更有效地结合外部知识、提升模型对复杂问题的理解与解答能力,成为 RAG(Retrieval-Augmented Generation)方向的核心挑战。

来自主题: AI技术研报
6897 点击    2025-04-29 08:55
颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!

颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!

颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!

在信息检索系统中,搜索引擎的能力只是影响结果的一个方面,真正的瓶颈往往在于:用户的原始 query 本身不够好。

来自主题: AI技术研报
7023 点击    2025-04-08 14:36
三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准,通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务,使研究者可在单卡甚至笔记本电脑上开展前沿研究。

来自主题: AI技术研报
4864 点击    2025-04-08 14:26
一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

SANA-Sprint是一个高效的蒸馏扩散模型,专为超快速文本到图像生成而设计。通过结合连续时间一致性蒸馏(sCM)和潜空间对抗蒸馏(LADD)的混合蒸馏策略,SANA-Sprint在一步内实现了7.59 FID和0.74 GenEval的最先进性能。SANA-Sprint仅需0.1秒即可在H100上生成高质量的1024x1024图像,在速度和质量的权衡方面树立了新的标杆。

来自主题: AI技术研报
8152 点击    2025-03-31 16:16
开启空间智能问答新时代:Spatial-RAG框架来了

开启空间智能问答新时代:Spatial-RAG框架来了

开启空间智能问答新时代:Spatial-RAG框架来了

当涉及到空间推理任务时,LLMs 的表现却显得力不从心。空间推理不仅要求模型理解复杂的空间关系,还需要结合地理数据和语义信息,生成准确的回答。为了突破这一瓶颈,研究人员推出了 Spatial Retrieval-Augmented Generation (Spatial-RAG)—— 一个革命性的框架,旨在增强 LLMs 在空间推理任务中的能力。

来自主题: AI技术研报
4982 点击    2025-03-07 10:34
浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025

浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025

浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025

在处理这类复杂任务的过程中,大模型智能体将问题分解为可执行的工作流(Workflow)是关键的一步。然而,这一核心能力目前缺乏完善的评测基准。为解决上述问题,浙大通义联合发布WorfBench——一个涵盖多场景和复杂图结构工作流的统一基准,以及WorfEval——一套系统性评估协议,通过子序列和子图匹配算法精准量化大模型生成工作流的能力。

来自主题: AI技术研报
6926 点击    2025-02-08 13:19
梁文锋就是AI界的黄峥

梁文锋就是AI界的黄峥

梁文锋就是AI界的黄峥

梁文锋带领着DeepSeek,还在继续搅动大模型行业。继用R1模型炸场之后,1月28日凌晨,除夕夜前一晚,DeepSeek又开源了其多模态模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基准测试中击败了DALL-E 3(来自 OpenAI)和Stable Diffusion。

来自主题: AI资讯
6914 点击    2025-01-30 12:40