ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
清华夺SIGIR 2024「时间检验+最佳论文奖」!中国大陆研究机构首次牵头获奖
5020点击    2024-07-18 16:26

一年一届的信息检索领域顶会SIGIR 2024,终于开奖了!


今年,SIGIR组委会暂未汇总公布所有的获奖名单,不过已经有机构/网友纷纷晒出了自己的成绩单。


值得一提的是,清华计算机系今年一次摘得多项大奖:


2014年发表的论文斩获SIGIR 2024唯一「时间检验奖」,另一篇论文获得「最佳论文奖」。




网友对此表示热烈祝贺,「实至名归」!



另外,CS系助理教授艾清遥还获得了「青年学者奖」,这也是中国大陆研究学者首次拿下该奖项。



除清华艾清遥之外,还有微软研究院Bhaskar Mitra、拉德堡德大学Harrle Oosterhuis,以及中科大Xiang Wang教授(王翔)成为青年学者奖的获奖者!



此外,还有社区奖、DEI奖的三位获奖者。



今年,是国际计算机学会信息检索大会(SIGIR)第47届会议,于7月14日-18日在美国华盛顿特区正式召开。



这次会议共收到1148篇投稿,其中有791篇是有效投稿,仅有159篇长文被录用,录用率为20.1%。相较于CVPR、ICML这样的顶会,投稿数少了一大截。


根据艾清遥对接受论文的统计,从各研究机构教师的论文数量来看,今年亚洲的贡献似乎最大。




接下来,一起看看大家的获奖成果。


清华CS系抱走两项大奖


最佳论文奖——Scaling Laws For Dense Retrieval



这篇获奖论文,由共同一作方言、詹靖涛,指导老师艾清遥助理教授、刘奕群教授完成的论文。


这是来自中国大陆的研究机构首次牵头获得该奖项。


论文地址:https://dl.acm.org/doi/abs/10.1145/3626772.3657743


Scaling Law早已成为大模型公认的定律,即LLM智能水平与参数规模呈正相关性,成为大模型区别于传统AI模型的重要特征。


然而,这一定律是否适用于其他深度神经网络模型,仍旧存在巨大的争论。



在这项研究中,作者针对这一问题展开了深入的研究。


他们设计了新型检索性能评价范式,验证了Scaling Law在稠密信息检索中的适用性。


这对搜索引擎、推荐系统等信息检索系统的设计,将发挥重要的指导作用。



时间检验奖——Explicit factor models for explainable recommendation based on phrase-level sentiment analysis



时间检验奖,通常颁给10年以上的产生重要持久影响的学术论文。


这篇发表在2014年的论文,由时任计算机系张永锋博士、赖国堃等学生,在张敏教授、刘奕群教授、马少平教授指导下完成。


清华官微称,自2014年以来,这项「可解释性推荐」研究自发表以来,在互联网推荐系统的设计与实现中一直发挥着重要的引领作用。



正如论文题目所示,研究中首次定义了「可解释性推荐」的问题。


同时,研究人员设计了相应的情感分析算法,以解决这一技术挑战,


论文地址:https://dl.acm.org/doi/10.1145/2600428.2609579


根据Google Scholar的统计,截至目前,这篇论文被引数近千次。



其他奖项


最佳论文提名


来自山东大学、莱顿大学、阿姆斯特丹大学的研究人员发表的论文——Generative Retrieval as Multi-Vector Dense Retrieval,获得了最佳论文提名。




研究中,作者介绍了生成式检索在给定查询的情况下,使用序列-序列架构,以端对端的方式生成相关文档的标识符。


当前,生成式检索与其他检索方法(尤其是密集检索)的关系尚未完全清晰。


先前的研究发现,使用原子标识符的生成式检索,等同于单向量密集检索。然而,以前的研究仅关注检索阶段,而未考虑生成式检索解码器内部的深层交互。


本文通过证明生成式检索和多向量密集检索,共享衡量文档与查询相关性的框架来填补这一空白。


论文地址:https://arxiv.org/pdf/2404.00684


最佳论文奖亚军


还有一篇来自格拉斯哥大学和比萨大学的研究人员发表的A Reproducibility Study of PLAID,获得了最佳论文奖亚军。



此前研究中,ColBERTv2的PLAID(Performance-optimized Late Interaction Driver)算法,使用聚类的术语表示来检索和逐步筛选文档,以进行最终(精确)的文档评分。


最新论文,研究人员重现了原始工作,并填补了其中的空白。


通过研究PLAID引入的参数,作者发现了其帕累托前沿(Pareto frontier)是由三个参数之间的精心平衡形成的。


而超出建议设置的偏差可能会大幅增加延迟,而不一定能提高其效果。


之后,研究比较了PLAID和对BM25结果进行重新排序的方法,在低延迟情况下,重新排序方法表现更好。但在高延迟情况下,重新排序方法难以达到最佳效果。


论文地址:https://arxiv.org/pdf/2404.14989


最佳短论文奖


来自马萨诸塞大学阿默斯特分校的研究人员发表的Evaluating Retrieval Quality in Retrieval-Augmented Generation,获得了本届SIGIR最佳短论文奖。



这篇获奖论文,仅有6页。


研究中,提出了一种全新的评估检索增强生成(RAG)系统的方法,名为eRAG。


之所以提出全新的方式,是因为当前RAG系统评估面临着挑战。


论文地址:https://arxiv.org/pdf/2404.13781


一是传统的端到端评估方法计算成本高,另一个是基于查询-文档相关性标签的检索模型评估,与RAG系统的下游性能相关性较小。


eRAG方法可以将检索列表中的每个文档,都被单独输入到RAG系统的大模型中,针对每个文档生成的输出都基于下游任务的真实标签进行评估。


结果显示,eRAG显著改善了运行时间。相较于端到端的评估,GPU内存消耗减少了最多50倍。



参考资料:

https://x.com/thudcst/status/1813395091723272199

https://x.com/QingyaoAi/status/1785245799439630351

https://mp.weixin.qq.com/s/4SPX31Rt-j75pYHcBmGdTA


文章来自于微信公众号“新智元”,作者 “桃子,好困”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/