ACM SIGKDD(国际数据挖掘与知识发现大会,KDD) 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。
今年的 KDD 大会是第 30 届,8 月 25 日 - 29 日在西班牙巴塞罗那召开,最佳论文奖、时间检验奖、杰出博士论文奖等奖项也逐一揭晓。
其中有多位华人研究者获奖,孟瑜的《Efficient and Effective Learning of Text Representations》获得了 KDD 2024 杰出博士论文奖,最佳论文奖(研究方向)颁给了六位华人学者参与的《CAT: Interpretable Concept-based Taylor Additive Models》,最佳学生论文(研究方向)颁给了中国科学技术大学、华为合作的《Dataset Regeneration for Sequential Recommendation》。KDD 2024 最佳论文奖(应用数据科学方向)由领英获得,此外,大会还颁发了两项时间检验奖。
杰出博士论文奖
KDD 2024 杰出博士论文奖颁发给了《Efficient and Effective Learning of Text Representations》,作者是弗吉尼亚大学助理教授孟瑜(Yu Meng )。
孟瑜于 2024 年加入弗吉尼亚大学 (UVA) 计算机科学 (CS) 系,担任助理教授(tenure-track)。此前,他获得了伊利诺伊大学厄巴纳 - 香槟分校 (UIUC) 的博士学位,与韩家炜教授一起工作。他还曾在普林斯顿 NLP 小组担任访问研究员,与陈丹琦一起工作。
论文摘要:文本表示学习在广泛的自然语言处理 (NLP) 任务中发挥了关键作用。这些表示通常是通过深度神经网络将原始文本转换为向量获得的。LLM 的最新进展已经证明了学习通用文本表示的巨大潜力,可适用于广泛的应用。这一成功由两个关键因素支撑:
因此,训练 LLM 需要大量成本,包括获取大量带标签的数据以及支持这些大型模型所需的基础设施。在这些挑战的基础上,本文旨在开发高效且有效的文本表示学习方法,涉及以下关键内容:
利用球面空间进行文本表示学习。表示空间的传统选择是欧几里得空间,但非欧几里得球面空间在通过方向相似性捕捉语义相关性的研究方面表现出卓越的能力。本文的工作重点是利用球面表示空间进行文本表示学习的自监督技术。
使用球面文本表示法发现主题结构。基于在球面空间中学习到的文本表示法,本文开发了通过联合建模主题和文本语义自动从给定语料库中发现主题结构的方法。
使用 LLM 生成训练数据以实现自然语言理解 (NLU)。要在 NLU 任务上实现稳健的性能,通常需要大量人工标注的训练样本来微调预训练的文本表示。为了减轻人工标注的需求,本文开发了一种新范式,使用 LLM 作为训练数据生成器来取代人工标注过程。
这些努力共同促进了文本表征更高效、更有效的学习,解决了训练和使用 LLM 面临的挑战。
论文详细内容请参阅:
https://scholar.google.com/citations?view_op=view_citation&hl=en&user=S2-yZKcAAAAJ&cstart=20&pagesize=80&citation_for_view=S2-yZKcAAAAJ:_Qo2XoVZTnwC
杰出博士论文奖(亚军)
此次还有两项研究获得了本届 KDD 的杰出博士论文奖(亚军)。
论文摘要:本论文探讨了神经人工智能系统与符号人工智能系统的交叉点。近年来的深度学习方法能够记忆大量的世界知识,但在此基础上进行符号推理仍存在局限性;而符号 AI 擅长解决推理任务,但在适应新知识方面效率较低。此前将两者结合的研究主要集中在构建基于解析的系统,这类系统需要大量的中间标签标注,且难以扩展。
作者的研究目标是使神经模型能够以可微分的方式与符号推理模块进行交互,并实现无需中间标签的端到端训练的这种神经 - 符号模型。为实现这一愿景,作者开展了以下研究工作:
论文摘要:对流行病的监控和预测是政府官员、企业和公众进行决策和规划的重要工具。尽管人们在理解疾病如何在人群中传播方面取得了多项进展,但从许多方面来看,人们对流行病传播的理解仍处于初期阶段。许多主要的挑战源于复杂的动态因素,如人员流动模式、政策遵守情况,甚至数据收集程序的变化。随着收集和处理新来源数据的努力,拥有许多变量的细粒度数据逐渐变得可用。然而,这些数据集很难通过传统的数学流行病学和基于智能体的建模方法来利用。相反,流行病学中的 AI 方法面临数据稀疏、分布变化和数据质量差异的挑战。
AI 技术在流行病学动态方面也缺乏理解,可能会导致不切实际的预测。为了解决这些挑战并向数据中心方法迈进,本论文提出了几个框架。具体来说,作者通过多个实例展示了将 AI 的数据驱动表达能力引入流行病学,可以实现对流行病更为敏感和精准的监控与预测。
研究方向论文奖
最佳论文
KDD 2024 最佳论文奖(研究方向)颁给了《CAT: Interpretable Concept-based Taylor Additive Models》。
论文摘要:作为一种新兴的可解释技术,广义相加模型(Generalized Additive Models,GAMs)让神经网络单独学习每个特征的非线性函数,然后通过线性模型组合以进行最终预测。尽管 GAM 可以在特征级别解释深度神经网络 (DNN),但它们需要大量模型参数,并且容易过度拟合,从而难以训练和扩展。
此外,对人类来说,在具有许多特征的现实数据集中,基于特征的解释的可解释性会降低。为了解决这些问题,最近的研究已转向基于概念的可解释方法。这些方法试图将概念学习作为做出预测之前的中间步骤,并用人类可理解的概念来解释预测。然而,这些方法需要领域专家用相关名称及其真实值广泛地标记概念。
基于此,该研究提出了一种可解释的、基于概念的新型泰勒相加模型 ——CAT,以简化这个过程。CAT 不需要领域专家来注释概念及其真实值。相反,它只需要用户简单地将输入特征分类为广泛的组,这可以通过快速元数据审查轻松完成。
具体来说,CAT 首先将每组输入特征嵌入到一维高级概念表征中,然后将概念表征输入到新的白盒泰勒神经网络(TaylorNet)中。 TaylorNet 旨在使用多项式学习输入和输出之间的非线性关系。多个基准的评估结果表明,CAT 可以优于基准或与基准竞争,同时减少对大量模型参数的需求。重要的是,它可以通过高级概念有效地解释模型预测。
最佳学生论文
KDD 2024 最佳学生论文(研究方向)颁给了《Dataset Regeneration for Sequential Recommendation》。
论文摘要:序列推荐系统(SR)是现代推荐系统中的关键组件,其目标是捕捉用户不断变化的偏好。为了增强 SR 系统的能力,已经进行了大量研究。这些方法通常遵循以模型为中心的范式,即基于固定数据集开发有效模型。然而,这种方法往往忽略了数据中潜在的质量问题和缺陷。基于数据中心化 AI 的潜力,研究团队提出了一种新颖的数据中心化范式,利用名为 DR4SR 的模型无关数据集再生框架来开发理想的训练数据集。该框架能够生成具有出色跨架构泛化能力的数据集。此外,他们还引入了 DR4SR + 框架,它结合了模型感知的数据集定制功能,能够为目标模型专门定制再生的数据集。
为了验证数据中心化范式的有效性,研究团队将该框架与各种以模型为中心的方法结合,观察到在四个广泛使用的数据集上性能显著提升。我们还进行了深入分析,探索数据中心化范式的潜力,并提供了宝贵的见解。
应用数据科学方向
最佳论文
KDD 2024 最佳论文(应用数据科学方向)颁给了《LiGNN: Graph Neural Networks at LinkedIn》。
论文摘要:这篇论文介绍了已部署的大规模图神经网络(GNNs)框架 LiGNN,并分享了领英开发和部署大规模 GNN 的经验。论文提出了一系列算法改进来提升 GNN 表示学习的质量,包括具有长期损失的时间图架构,通过图密集化、ID 嵌入和 multi-hop 相邻采样实现的有效冷启动解决方案。
具体来说,论文介绍了如何通过自适应相邻采样、训练数据 batch 的分组和切片、专用共享内存队列和局部梯度优化,在 LinkedIn 图上构建大规模训练,并将训练速度提高 7 倍。研究者总结了从 A/B 测试实验中收集到的部署经验和教训。这项工作中介绍的技术帮助提高了约 1% 的工作应用回听率、2% 的广告点击率提升、0.5% 的日活用户提升、0.2% 的会话提升和 0.1% 的每周活跃用户数提升。这项工作有望为大规模应用图神经网络的工程师提供实用的解决方案和见解。
最佳论文亚军
KDD 2024 最佳论文亚军(应用数据科学方向)颁给了《Nested Fusion: A Method for Learning High Resolution Latent Structure of Multi-Scale Measurement Data on Mars》。
论文摘要:火星探测车「毅力号」代表了火星测量精度的代际变化,然而这种精度的提高也为探索性数据分析技术带来了新的挑战。探测车上的多个仪器分别测量科学家感兴趣的特定属性,因此分析底层现象如何共同影响多个不同的仪器,对于全面了解数据至关重要。然而,每个仪器的分辨率各不相同,使得不同数据层的映射变得复杂。
这项研究提出了 Nested Fusion 方法,该方法能够结合不同分辨率的任意分层数据集,并在可能的最高分辨率下生成潜在分布,编码不同测量和尺度之间的复杂相互关系。
该方法能够对大型数据集高效处理,甚至可以对未见过的数据进行推理,并在真实的火星探测车数据上,超越了现有的降维和潜在分析方法。他们已在 NASA 喷气推进实验室(JPL)内的火星科学团队中部署了 Nested Fusion 方法,并且通过多轮参与式设计,大大提升了科学家的探索性分析工作流程。
时间检验奖
大会还评出了两项时间检验奖。
KDD 2024 时间检验奖(研究方向)颁给了《DeepWalk: online learning of social representations》。
论文摘要:这篇论文介绍了研究团队所提出的一种用于学习网络中顶点隐层表示的新方法 ——「DeepWalk」。这些隐层表示将社会关系编码在连续的向量空间中,统计模型则可以轻松利用这些表示。
DeepWalk 将语言建模和无监督特征学习(或深度学习)从词序列推广到了图结构。DeepWalk 通过截断随机游走获取局部信息,并将游走等同视为句子,从而学习隐层表示。他们在多个社交网络的多标签网络分类任务中展示了 DeepWalk 的隐层表示,例如 BlogCatalog、Flickr 和 YouTube。
结果表明,DeepWalk 在有缺失信息的情况下,表现优于能够看到全局网络视图的其他强大基线方法。特别是在标注数据稀缺的情况下,DeepWalk 的表示可以将分数提高最多 10%。在某些实验中,DeepWalk 使用少于 60% 的训练数据时,仍能超越所有基线方法。DeepWalk 具有可扩展性,它是一种在线学习算法,能够构建有用的增量结果,且易于并行化。这些特性使其适用于广泛的实际应用场景,如网络分类和异常检测。
KDD 2024 时间检验奖(应用数据科学方向)颁给了《U-Air: when urban air quality inference meets big data》。
论文摘要:这篇论文介绍了研究团队所提出的一种基于协同训练框架的半监督学习方法。关于城市空气质量的信息(例如 PM2.5 的浓度),对于保护人类健康和控制空气污染至关重要。然而,城市中空气质量监测站的数量有限,并且空气质量在城市空间中又呈现非线性变化,并受多种因素的影响,例如气象、交通流量和土地利用等。在本文中,研究团队基于现有监测站报告的(历史和实时)空气质量数据,以及在城市中观察到的各种数据来源(如气象、交通流量、人员流动、道路网络结构和兴趣点 POIs),推断整个城市的实时、细粒度的空气质量信息。
他们提出了一种基于协同训练框架的半监督学习方法,该框架包含两个独立的分类器。一个是基于人工神经网络(ANN)的空间分类器,它将空间相关特征(如 POI 的密度和高速公路的长度)作为输入,以建模不同地点之间空气质量的空间相关性。另一个则是基于线性链条件随机场(CRF)的时间分类器,使用时间相关特征(如交通和气象)来建模一个地点空气质量的时间依赖性。
研究团队在北京和上海所获取的五个真实数据源的基础上进行了广泛的实验评估。结果表明,与四类基线方法(包括线性 / 高斯插值、经典扩散模型、决策树和 CRF 等著名分类模型,以及 ANN)相比,他们所提出的基于协同训练框架的半监督学习方法具有显著优势。
文章来源于“机器之心”,作者“关注大模型的”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner