无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归
7475点击    2025-05-24 11:46

无需任何配对数据,就能实现文本嵌入的模型空间转换?!


曾因llya离职OpenAI,在互联网上掀起讨论飓风的柏拉图表示假说提出:


所有足够大规模的图像模型都具有相同的潜在表示。


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归


那么是否存在针对文本模型的通用潜在结构呢?


康奈尔大学现在给出了Plus版答案——vec2vec首个无监督文本嵌入的跨向量空间转换方法。


利用共享潜在空间,不仅保留嵌入结构和底层输入语义,还能够反推提取嵌入信息。


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归


vec2vec在目标嵌入空间中与真实向量的余弦相似度高达0.92,并在超过8000个随机打乱的嵌入上实现完美匹配,揭示了所有编码器在不同架构或训练数据下都拥有几乎相同的表示形式


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归


具体内容,接下来我们一一拆解。


增强版柏拉图表示假说


文本嵌入作为NLP的核心技术,存在许多基于不同数据集、数据洗牌方式和初始化的嵌入模型。


但不同模型之间由于训练数据、架构不同,生成的嵌入向量空间完全不兼容,无法直接进行对齐。



无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归



于是团队从柏拉图表示假说中汲取灵感,提出强柏拉图表示假说 (S-PRH)


使用相同目标和模态、但不同数据及模型架构训练的神经网络,会收敛到一个通用潜在空间,使得无需任何成对对应关系,即可学习到它们表征之间的转换关系。


vec2vec就是在此基础上构建,核心思想就是学习和利用文本表示的通用潜在结构,实现表征的嵌入空间转移,而无需任何成对的数据或编码器


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归


vec2vec采用模块化架构,其中嵌入向量通过特定空间的适配器模块进行编码和解码,并经过共享主干网络完成传递。


输入适配器和,将来自每个编码器特定空间的嵌入转换到维度为的通用潜在表示。


共享主干从适配后的输入中提取通用潜在嵌入,再输出适配器和将其全部转换回编码器特定空间。


因此,转换函数、和额外重构映射、定义为:


所有组件的参数集合记为


与图像不同,由于嵌入向量不具有空间偏向性,因此采用带有残差连接、层归一化和SiLU非线性激活函数的多层感知机 (MLP)替代CNN。


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归


为了确保转换后的向量保留嵌入语义和几何结构,还引入了以下损失函数进行优化:


  • 对抗性损失:鼓励生成的嵌入在嵌入层和潜在层均匹配原始嵌入的经验分布。
  • 重建损失:强制嵌入在映射到潜在空间并返回原始空间后与初始表示高度一致。
  • 循环一致性损失:作为无监督的配对对齐代理,确保能够嵌入转换并返回时损失最小。
  • 向量空间保持损失:确保翻译后生成嵌入的成对关系保持一致。


实验结果


团队使用三个指标衡量转换质量:


  1. 平均余弦相似度:衡量转换结果与目标的平均接近程度。
  2. Top-1准确率:转换结果的目标是最近邻的比例。
  3. 平均排名:目标相对于转换结果的平均排名。


如图所示,在自然问题(NQ)数据集上,vec2vec在相同主干模型配对(如GTE与E5)中达到接近1.0的Top-1准确率,显著优于基线。


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归


vec2vec在分布外数据(如推文和医疗记录)上也表现稳健。例如,在TweetTopic上,GTE到Stella的余弦相似度达0.92,Top-1准确率100%。


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归


下表也验证了vec2vec在单模态与多模态嵌入(如CLIP)中的转换潜力。


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归


同时实验也证明,vec2vec不仅可以保留嵌入的几何结构,还保留足够的语义以实现属性推断。


在某些模型配对中,80%的文档可通过零样本反演恢复内容,尽管结果还并不完美,但也再次证明嵌入几乎与其输入一样体现高保真的语义信息。


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归



以上有关vec2vec的实验结果,为强柏拉图表示假说提供了有力证据,针对CLIP的结果也初步表明可以适用于其他模态


诚然,这将有助于跨系统访问信息,具有巨大的知识共享潜力,但随之而来的安全风险也必须考虑其中。


仅通过嵌入向量就可实现语义信息转换的能力,将会让底层文本的敏感信息更容易受到恶意提取和攻击,威胁向量数据库安全。


这对数据安全来说既是突破也是挑战。


论文链接:https://arxiv.org/abs/2505.12540


参考链接:

[1]https://x.com/rishi_d_jha/status/1925212069168910340

[2]https://x.com/jxmnop/status/1925224612872233081

[3]https://www.youtube.com/watch?v=eJpfoDENSBc


文章来自微信公众号 “ 量子位 ”,作者 鹭羽


无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归




关键词: 模型训练 , AI , vec2vec , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI