The Web Conference(前身为 International World Wide Web Conference,WWW)会议是万维网领域的顶会,由图灵奖得主 Tim 创办,被中国计算机协会将其认证为 CCF-A 类会议,每年举办一次。
目前大会公布了最佳学生论文奖、最佳论文奖以及时间检验奖。
WWW 2024 最佳论文颁给了和大模型相关的研究。
这篇论文作者共有 5 位,包括两位华人。
Haifeng Xu 是芝加哥大学助理教授,并领导了 Sigma 实验室。在此之前,Haifeng Xu 在哈佛大学做过博士后,导师是 Yiling Chen 和 David Parkes,在南加州大学(USC)获得了计算机科学博士学位,导师是 Shaddin Dughmi 和 Milind Tambe(现任哈佛大学教授)。
Song Zuo 现在是谷歌研究科学家,此前,他在清华大学获得博士学位,本科毕业于清华姚班,主要研究方向为拍卖与机制设计,经济学与计算。
本文研究了拍卖机制(auction mechanisms),以支持人工智能生成内容的新兴格式。他们特别研究了如何以激励相容的方式聚合多个大型语言模型(LLM)。在这个问题中,每个智能体对随机生成内容的偏好被描述 / 编码为一个 LLM。这项研究的一个关键动机是设计一种 AI 生成广告创意的拍卖格式,以结合不同广告商的输入。研究者认为,尽管这个问题总体上属于机制设计的范畴,但它具有几个独特的特征。
本文提出了一种通用形式 —— token auction 模型来进行研究。该模型的一个关键特征是,它以 token 为单位进行操作,并允许 LLM 智能体通过单维度出价的方式来影响生成的内容。
本文首先探索了一种稳健的拍卖设计方法,在这种方法中,本文假设智能体偏好比结果分布更具有部分顺序。他们提出了两种自然的激励属性,并证明这些属性等同于分布聚合的单调性条件。本文还证明,对于这种聚合函数,即使在没有竞标者估值函数的情况下,也可以设计出第二价格拍卖(second-price auction)。接下来,本文通过聚焦于基于 KL 散度(LLM 中常用的损失函数)的具体估值形式,设计了具体的聚合函数。结果表明,福利最大化(welfare-maximizing)的聚合规则是所有参与者目标分布的加权(对数空间)凸组合。最后,本文通过实验结果支持了 token 拍卖的形式化。
来自爱丁堡大学的研究者摘得了本届最佳学生论文奖。
论文摘要:数据流处理在各种与网络相关的应用中起着关键作用,包括点击欺诈检测、异常识别和推荐系统。然而,在数据流中准确快速地检测与这些任务相关的项目(如热门项目、重大变化项目和持久项目)并非易事。这是由于当前系统中不断增加的流速、有限的快速内存(L1 缓存)以及实际遇到的高度偏斜的项目分布。
本文引入了 bucket 稳定性的概念,它量化了记录项目变化的程度,并证明这是识别不同项目类型的强大指标。
在此基础上,本文提出了 Stable-Sketch,它利用了多维信息,包括项目统计和 bucket 稳定性,并采用随机方法来驱动替换决策。研究者对 Stable-Sketch 的误差范围进行了理论分析,并进行了大量实验,证明本文的解决方案在各种项目检测任务中,即使在内存紧张的情况下,也能实现更高的准确性和更快的处理速度。
来自斯坦福大学的 Taher H Haveliwala 获得了时间检验奖。
在原始的 PageRank 算法中,通过计算一个单一的 PageRank 向量,并利用网页的链接结构来捕捉网页的相对重要性,然而这一过程与任何特定的搜索查询无关。
为了产生更准确的搜索结果,本文建议计算一组 PageRank 向量,从而使用一组具有代表性主题的偏置向量,以更准确地捕获特定主题的重要概念。通过使用这些(预先计算的)偏置的 PageRank 向量,本文展示了这种方法可以比使用单一的通用 PageRank 向量生成更准确的排名。
本文来自微信公众号“机器之心”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI