大模型研究获最佳论文，WWW 2024奖项出炉

6955点击 2024-05-18 17:59

The Web Conference（前身为 International World Wide Web Conference，WWW）会议是万维网领域的顶会，由图灵奖得主 Tim 创办，被中国计算机协会将其认证为 CCF-A 类会议，每年举办一次。

目前大会公布了最佳学生论文奖、最佳论文奖以及时间检验奖。

最佳论文奖

WWW 2024 最佳论文颁给了和大模型相关的研究。

大模型研究获最佳论文，WWW 2024奖项出炉

标题：Mechanism Design for Large Language Models
论文地址：https://arxiv.org/pdf/2310.10826
作者：Paul Dütting、Vahab Mirrokni、Renato Paes Leme、Haifeng Xu、Song Zuo
机构：Google Research、芝加哥大学

这篇论文作者共有 5 位，包括两位华人。

Haifeng Xu 是芝加哥大学助理教授，并领导了 Sigma 实验室。在此之前，Haifeng Xu 在哈佛大学做过博士后，导师是 Yiling Chen 和 David Parkes，在南加州大学（USC）获得了计算机科学博士学位，导师是 Shaddin Dughmi 和 Milind Tambe（现任哈佛大学教授）。

大模型研究获最佳论文，WWW 2024奖项出炉

Song Zuo 现在是谷歌研究科学家，此前，他在清华大学获得博士学位，本科毕业于清华姚班，主要研究方向为拍卖与机制设计，经济学与计算。

本文研究了拍卖机制（auction mechanisms），以支持人工智能生成内容的新兴格式。他们特别研究了如何以激励相容的方式聚合多个大型语言模型（LLM）。在这个问题中，每个智能体对随机生成内容的偏好被描述 / 编码为一个 LLM。这项研究的一个关键动机是设计一种 AI 生成广告创意的拍卖格式，以结合不同广告商的输入。研究者认为，尽管这个问题总体上属于机制设计的范畴，但它具有几个独特的特征。

本文提出了一种通用形式 —— token auction 模型来进行研究。该模型的一个关键特征是，它以 token 为单位进行操作，并允许 LLM 智能体通过单维度出价的方式来影响生成的内容。

本文首先探索了一种稳健的拍卖设计方法，在这种方法中，本文假设智能体偏好比结果分布更具有部分顺序。他们提出了两种自然的激励属性，并证明这些属性等同于分布聚合的单调性条件。本文还证明，对于这种聚合函数，即使在没有竞标者估值函数的情况下，也可以设计出第二价格拍卖（second-price auction）。接下来，本文通过聚焦于基于 KL 散度（LLM 中常用的损失函数）的具体估值形式，设计了具体的聚合函数。结果表明，福利最大化（welfare-maximizing）的聚合规则是所有参与者目标分布的加权（对数空间）凸组合。最后，本文通过实验结果支持了 token 拍卖的形式化。

大模型研究获最佳论文，WWW 2024奖项出炉

最佳学生论文奖

来自爱丁堡大学的研究者摘得了本届最佳学生论文奖。

大模型研究获最佳论文，WWW 2024奖项出炉

标题：Stable-Sketch: A Versatile Sketch for Accurate, Fast, Web-Scale Data Stream Processing
论文地址：https://homepages.inf.ed.ac.uk/ppatras/pub/webconf24.pdf
作者：Weihe Li、Paul Patras
机构：爱丁堡大学

论文摘要：数据流处理在各种与网络相关的应用中起着关键作用，包括点击欺诈检测、异常识别和推荐系统。然而，在数据流中准确快速地检测与这些任务相关的项目（如热门项目、重大变化项目和持久项目）并非易事。这是由于当前系统中不断增加的流速、有限的快速内存（L1 缓存）以及实际遇到的高度偏斜的项目分布。

本文引入了 bucket 稳定性的概念，它量化了记录项目变化的程度，并证明这是识别不同项目类型的强大指标。

在此基础上，本文提出了 Stable-Sketch，它利用了多维信息，包括项目统计和 bucket 稳定性，并采用随机方法来驱动替换决策。研究者对 Stable-Sketch 的误差范围进行了理论分析，并进行了大量实验，证明本文的解决方案在各种项目检测任务中，即使在内存紧张的情况下，也能实现更高的准确性和更快的处理速度。

首尔时间检验奖（Seoul Test of Time Award）

来自斯坦福大学的 Taher H Haveliwala 获得了时间检验奖。

大模型研究获最佳论文，WWW 2024奖项出炉

标题：Topic-Sensitive PageRank
论文地址：http://www-cs-students.stanford.edu/~taherh/papers/topic-sensitive-pagerank.pdf
作者：Taher H Haveliwala
机构：斯坦福大学

在原始的 PageRank 算法中，通过计算一个单一的 PageRank 向量，并利用网页的链接结构来捕捉网页的相对重要性，然而这一过程与任何特定的搜索查询无关。

为了产生更准确的搜索结果，本文建议计算一组 PageRank 向量，从而使用一组具有代表性主题的偏置向量，以更准确地捕获特定主题的重要概念。通过使用这些（预先计算的）偏置的 PageRank 向量，本文展示了这种方法可以比使用单一的通用 PageRank 向量生成更准确的排名。

本文来自微信公众号“机器之心”

大模型研究获最佳论文，WWW 2024奖项出炉

关键词: 大模型 , WWW , AI学术 , AI论文 , 大模型论文

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI