追问weekly | 过去一周,AI领域有哪些新突破?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
追问weekly | 过去一周,AI领域有哪些新突破?
5833点击    2025-01-06 14:05

追问weekly | 过去一周,AI领域有哪些新突破?


█ 政策法规与新闻

Juniper Ventures:押注合成生物学,迎战气候变化

Meta的AI洪流:社交媒体新时代还是潜在危机?

NVIDIA的战略飞跃:收购Run:AI布局AI云编排

韩国批准首个AI驱动的抑郁症诊断工具


█  大模型与基础建设

神经符号推理:知识图谱中的AI复兴

千脑计划:用大脑皮层智慧重塑人工智能

超越模型的思维:深入探讨人工智能中的心智理论


█ 技术与研发

当AI聊天机器人玩游戏时:机器试图像人类一样思考

思维回滚:解决AI推理错误的新曙光

Graph Mamba:图学习领域的新王者?

神经网络的秘密生活:解码深度学习的激活之谜

超曲面超图:多关系知识表示的未来

SEKE:语法诡计与语义魔法的关键词提取大师

攀登AI推理高峰:强化学习的奥德赛

机器的“心智游戏”:ExploreToM 如何重新定义 AI 的社交智商

消化复杂性:DAHSF如何重新定义轻量级自然语言处理AI

人工智能规划:从摇摇欲坠到层次化的巅峰

量子语义:通过SEE实现Transformer模型压缩的革命性突破

少样本定制对齐:教AI读懂人心(差不多)

从鱼群到智囊团:对话群体智能如何颠覆头脑风暴

热力学视角下的生成模型:如何通过遍历性破缺塑造知识


█ 应用与实践

HIVE:多模态AI的蜂巢之舞

AIGT:烹饪合成数据盛宴的AI大厨

EscapeBench:解锁AI的创造力潜力——或者还差得远

ASAL:用人工智能革新人工生命的发现

无叶风扇的灵感:生成式智能体如何重塑创新规则

BioRAGent:比你更懂PubMed的AI图书管理员


█ 交叉与创新

带外部性博弈中的贝叶斯劝说:多智能体操控的教科书式范例

数学的超图革命:拉马努金图书馆的崭新篇章

合成人格与政治操控:大型语言模型如何随意识形态起舞

从静态人格到动态对话:对话式人工智能的新时代

联邦学习遇上RAG:更聪明医疗AI的处方

记忆与注意力的碰撞:神经科学如何让AI更聪明

现代购物者的心智地图:深入探讨意图知识图谱

升级人工智能:尖端技术如何重塑数字游戏

操纵选票:算法如何重新定义政治竞选

AI与人类:数字丛林中的信仰之战


政策法规与新闻


Juniper Ventures:押注合成生物学,迎战气候变化


Juniper Ventures是一家从Climate Capital独立出来的新投资公司,宣布将专注于合成生物学这一变革性领域,以应对气候变化。该公司计划投资利用合成生物学开发可持续技术的初创企业,包括碳捕获、可再生材料和生物基解决方案。这一举措反映了气候领域投资者日益青睐前沿生物技术创新,将其视为应对全球气候危机的关键策略。


关键进展与创新包括:战略独立,Juniper Ventures从Climate Capital分拆出来,标志着其对合成生物学的专注,使其能够将资源完全投入到这一新兴领域;合成生物学潜力,该公司押注于合成生物学能够通过创造可持续替代传统工艺的技术(如生物工程材料和碳中和燃料)来彻底改变行业;气候影响目标,通过将投资与气候目标对齐,Juniper Ventures旨在支持显著减少温室气体排放并促进生态可持续性的技术。


专注于合成生物学的决策源于以下几个关键因素:气候行动的紧迫性,随着全球气温上升和环境恶化加剧,迫切需要创新解决方案来缓解气候影响;技术成熟度,合成生物学的进步使得工程化有机体能够解决复杂环境挑战(如碳封存和废弃物减少)成为可能;经济机会,预计合成生物学市场将呈指数级增长,为投资者提供丰厚回报,同时推动积极的环境成果。


Juniper Ventures成立为专注于合成生物学的投资机构,对投资界和应对气候变化行动具有重要意义:对初创企业,此举为那些致力于结合生物技术与可持续发展的创新公司提供了关键资金支持和资源保障;对气候运动,通过优先支持具有可扩展性且能带来显著环境效益的解决方案,Juniper Ventures展示了私人资本如何推动应对气候危机的重要进展;对投资者,专注于合成生物学为社会责任型投资者提供了兼顾财务回报与环境影响的新机会。


相关阅读:

https://techcrunch.com/2024/12/23/juniper-ventures-spins-out-of-climate-capital-to-invest-in-synthetic-biology-for-the-climate/


Meta的AI洪流:社交媒体新时代还是潜在危机?


Meta近日宣布将在其平台上全面开放AI生成账户,这是其更广泛AI战略的重要组成部分,旨在提升用户参与度并推动内容生成。这些AI生成账户不仅能提供个性化互动和任务协助,还能创造创意内容。Meta希望借此重新定义社交媒体体验。然而,这一举措也引发了对虚假信息传播、隐私风险及数字生态系统复杂性增加的广泛担忧。


Meta对AI生成账户的愿景在于通过虚拟助手的形式,为用户提供更加定制化的互动体验。然而,批评者指出,这些账户可能被滥用,助长虚假信息传播和操纵行为。此外,Meta过往的隐私争议令公众对其数据收集与使用方式存有疑虑。隐私倡导者对此表示警惕,认为AI生成账户可能进一步威胁用户隐私。


这一战略符合科技行业当前的发展趋势,例如OpenAI和谷歌将生成式AI整合到消费者产品中。但与此同时,外界对AI在数字平台上的伦理影响日益关注,令Meta的举措面临更大的公众和监管压力。Meta的成功将取决于多个因素,包括公众接受度、监管环境以及竞争对手的市场反应。如果用户认为这些账户具有欺骗性或侵扰性,采用率可能会受到严重影响。同时,围绕社交媒体中AI使用的法规日益严格,可能成为Meta战略实施的障碍。


相关阅读:

https://www.forbes.com/sites/chriswestfall/2025/01/02/meta-opens-floodgates-on-ai-generated-accounts-on-facebook-instagram/


NVIDIA的战略飞跃:收购Run:AI布局AI云编排


NVIDIA宣布收购专注于GPU云编排的AI工作负载优化公司Run:AI,此举被视为其巩固AI生态系统领导地位的重要战略布局。Run:AI以跨云环境优化GPU利用率的技术著称,其平台通过动态分配工作负载,帮助企业最大化GPU资源效率。此次收购与NVIDIA提供端到端AI开发和部署解决方案的战略目标高度一致,尽管交易的财务细节尚未披露,但其战略意义深远。


收购的战略契合点在于Run:AI技术与NVIDIA硬件的互补性。通过优化GPU使用、降低成本并提升AI工作负载性能,NVIDIA能够更好满足处理复杂模型和海量数据集的市场需求。这也使其在与AMD、Intel等竞争对手的市场竞争中进一步占据优势。


此次收购由多方面因素驱动:生成式AI和大型语言模型的崛起对GPU和高效资源管理的需求急剧增加;云计算的普及让优化资源分配的编排工具变得尤为重要;而垂直整合战略则帮助NVIDIA打造无缝生态系统,将其硬件与先进软件解决方案结合,为用户提供更优性能和体验。


未来,NVIDIA可能通过收购或内部开发进一步扩展其软件能力,这或将推动其GPU的广泛采用,但也可能引发反垄断监管审查。此次交易标志着AI基础设施领域的重要转折,NVIDIA通过整合硬件和软件,不仅提升了自身竞争力,还可能设定新的行业标准。然而,市场集中化可能对中小型参与者造成不利影响。


韩国批准首个AI驱动的抑郁症诊断工具:精神健康领域的里程碑


韩国食品药品安全部近日批准了全国首个用于辅助诊断抑郁症的人工智能(AI)软件,这标志着精神健康诊断领域的重要进展。这款由本地AI公司Acryl开发的软件名为ACRYL-D01,利用AI分析患者的访谈内容,评估其患抑郁症的可能性,并提供从0%到100%的定量概率。


ACRYL-D01的主要特点包括AI驱动的分析和量化的概率评估。该软件处理数字化的患者访谈数据,运用AI算法评估与抑郁症相关的情绪指标和语言模式。这种方法为临床医生的诊断决策提供了客观支持。通过为抑郁症的可能性分配具体的概率百分比,帮助精神健康专业人员识别可能需要进一步评估或干预的患者。


ACRYL-D01的批准标志着韩国精神健康领域正式迈向AI技术整合的里程碑。传统上,抑郁症的诊断主要依赖于患者访谈和标准化问卷的主观评估。引入像ACRYL-D01这样的AI驱动工具,为早期发现和治疗效果的提升提供了更高的客观性和一致性。


韩国对AI诊断工具的认可反映了在全球范围内,将技术融入精神健康护理的日益增长的趋势。例如,类似的应用还包括分析语音模式以检测抑郁症状的工具,如心理健康日记应用REDI,该应用通过语音分析使用生成式AI筛查抑郁症。


尽管AI在精神健康诊断中的应用前景广阔,但仍需解决以下关键问题:数据隐私、临床验证、临床实践中的整合。确保患者数据的机密性和安全性至关重要,尤其是涉及敏感的精神健康信息时。必须通过持续的临床试验验证AI诊断工具在不同人群中的准确性和可靠性。医护人员需要经过充分的培训,能够解读AI生成的评估结果,并将其有效整合到患者护理中。


相关阅读:

https://www.mobihealthnews.com/news/asia/korea-oks-first-depression-diagnosis-ai


大模型与基础建设


神经符号推理:知识图谱中的AI复兴


在人工智能领域,神经网络与符号推理的融合是一次独特而深刻的尝试。由刘丽辉、王子豪和童航航发表的论文提出了一种混合方法——神经符号推理,结合了符号逻辑的可解释性和神经网络的鲁棒性。这种方法试图解决知识图谱推理中符号方法和神经网络各自的短板,实现逻辑与现实数据的兼容。


知识图谱通过组织复杂信息网络为人工智能提供推理基础,但传统符号推理在面对不完整或噪声数据时表现不佳,而神经网络尽管能处理模糊性,却因缺乏透明性而受限。神经符号推理结合了符号逻辑的精准和神经网络的适应性,旨在开发既能逻辑推断又能处理复杂现实问题的系统。


论文中的关键创新包括重新定义符号推理方法,例如将规则系统现代化(如马尔可夫逻辑网络)和利用随机游走的路径推理。此外,知识图谱嵌入技术通过向量化表示实体和关系,实现了链接预测和实体分类。高级模型如RotatE利用复数向量空间捕捉复杂关系,增强了推理能力。


最引人注目的创新在于神经符号交互的实现,例如通过逻辑规则嵌入神经架构(如NeuralLP),以及混合路径信息和神经上下文的PathCon方法。论文还探讨了大语言模型(如GPT-4)与知识图谱的结合,这一整合能够减轻幻觉问题并提升推理准确性。框架如GraphRAG展示了知识图谱增强语言模型性能的可能性,同时实现了跨模态推理的扩展。


相关阅读:

https://arxiv.org/pdf/2412.10390


千脑计划:用大脑皮层智慧重塑人工智能


千脑计划(Thousand Brains Project, TBP)是一种全新的人工智能方法,其灵感来源于人类大脑新皮层的工作原理。核心思想是通过数千个半独立的“学习模块”(Learning Modules, LMs)实现感知运动学习和参考框架的整合,构建智能、灵活且可推广的AI系统。


项目提出了一种模块化设计,以模拟大脑皮层柱的功能,每个模块能够独立建模完整的对象。为了实现这些模块间的高效协作,计划开发“皮层通信协议”(Cortical Messaging Protocol, CMP),类似于软件系统中的API,支持模块化扩展与异构集成。这一架构不仅为AI系统的多功能协作提供了全新思路,还启发了感知运动学习和动态适应的可能性。


千脑计划的核心原则包括:感知运动学习,强调动态交互与实时适应;模块化结构,采用通用算法支持多模式学习;以及基于参考框架的空间建模,使系统能够在动态环境中完成复杂推理。此外,该项目设计了一种投票机制,通过整合多模块的输入达成稳健结论,模仿神经网络中的生物共识过程。


实验表明,TBP在识别不同姿态和尺度下的对象时表现出色,特别是在面对噪声和遮挡时具备极强的鲁棒性。其模块化架构也展现出快速适应新任务的能力。然而,当前测试主要局限于受控3D模拟环境中,实际部署仍需进一步验证。


相关阅读:

https://arxiv.org/pdf/2412.18354


超越模型的思维:深入探讨人工智能中的心智理论


理解他人心理状态的能力,即所谓的心智理论(Theory of Mind, ToM),是社会认知的核心。然而,即便是最先进的语言模型在这一领域仍表现欠佳。Wagner等人在论文《Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning》中,对ToM的关键挑战和潜在改进路径进行了深入探讨。


现有的ToM基准测试主要集中在静态任务,如Sally-Anne测试,忽略了真实交互场景中动态调用ToM的需求。这种评估方式与人类认知机制存在显著差距,限制了AI对心理状态的深层次理解。


研究指出,ToM关键技术包括提示优化、符号模块以及模型后解码方法。这些技术尽管能在特定任务中提升表现,却未能从根本上增强模型的动态适应能力。此外,ToM线性探测法通过分析模型内部表示来评估心理状态编码,但无法解释模型调用这些表示的机制。基于认知模型的递归方法(如I-POMDPs)则可以通过高阶建模提升心理化深度(DoM),但其计算成本高昂且缺乏灵活性。


从生物体和认知研究中汲取灵感是AI改进ToM能力的关键。论文提出,心理推理失败主要源于心理化深度的错误调用:心理化不足会忽视复杂意图,而心理化过度可能导致错误归因。因此,为AI设计能够动态调整心理化深度的架构至关重要。例如,通过强化学习(RL),代理可根据环境反馈优化心理化水平,平衡效率与准确性。


相关阅读:

https://arxiv.org/pdf/2412.13631


技术与研发


当AI聊天机器人玩游戏时:机器试图像人类一样思考


在人工智能不断扩展中,机器被吹捧为下一代伟大的思想者、问题解决者,甚至是伙伴。一项新的研究大胆地提出了一个简单却深刻的问题:当涉及决策时,AI聊天机器人的行为是否像人类?答案既令人着迷,又有些令人不安。这篇论文深入探讨了五种最先进的AI聊天机器人——OpenAI GPT、Meta Llama、Google Gemini、Anthropic Claude和Mistral——在一系列行为经济学游戏中的表现。


这项研究使用六种经典的行为经济学游戏——独裁者游戏、最后通牒游戏、信任游戏、公共物品博弈、炸弹风险博弈和囚徒困境——来评估这些聊天机器人的决策方式。这些游戏探讨了人类行为的基本方面,如利他主义、公平性、信任、风险偏好和合作。通过将这些场景抛给聊天机器人,并将它们的行为与人类行为分布进行比较,研究人员试图揭示这些数字“大脑”是否真的能“思考”得像我们一样,或者它们只是非常擅长伪装。


每个聊天机器人在每个游戏中都生成了50个独立的响应。然后,研究人员使用复杂的指标(如Wasserstein距离来衡量行为相似性)和效用函数(用于评估收益偏好)对数据进行了分析。简而言之,这不仅仅是一个随意的游戏之夜,而是一场对AI决策能力的严格科学审查。


研究发现,所有五个聊天机器人都能捕捉到某些模式的人类行为——有时甚至惊人地相似。它们特别擅长在收益偏好中强调公平。然而,与人类相比,它们的决策分布更加集中。用通俗的话来说?它们就像那个在大富翁游戏中总是选择安全路线的朋友——可预测但不太有趣。


虽然所有聊天机器人都有一些共同点,但它们也表现出独特的怪癖。例如,Google Gemini被认为是团队中的“利他主义者”(谁能想到机器会如此慷慨?),而OpenAI GPT-4表现出令人惊讶的风险规避——也许它看过太多关于流氓AI的警示故事。


尽管在特定场景下,这些聊天机器人显示出通过图灵测试的可能性,但没有一个能完全复制人类决策多样性的辉煌混乱。它们是优秀的模仿者,但仍未达到令人信服的人类替代品。


更有趣的是,这些机器人在不同游戏中的表现如何不一致。在所有模型中,Mistral Large 2被认为是一致性最高的模型——但说实话,这就像在一群蹒跚学步的小孩中挑选出最不笨拙的人。


有趣的是,所有模型都比人类更高效地优化了公平,但在自私收益优化方面却表现不佳。看来我们的数字统治者比我们更擅长分享——这是一个安慰人的想法,直到你意识到它们在关键时刻优先考虑自我利益方面表现得很糟糕。


相关阅读:

https://arxiv.org/pdf/2412.12362


思维回滚:解决AI推理错误的新曙光


人工智能(AI)长期以来被誉为解决复杂问题的终极工具,但即便是最先进的模型(如GPT-4)也常常“幻觉”般地自信给出错误答案。现在,思维回滚(Thought Rollback, TR)框架横空出世,它承诺改变大型语言模型(LLMs)的推理方式。这不仅是一次渐进式改进,而是一个大胆的尝试,旨在让AI更像人类——具有适应性、反思能力,并且敢于承认并修正错误。


LLMs通过逐步推理解决任务的能力令人印象深刻,但它们的推理往往像一条僵硬的锁链,一旦中间某个环节出错,后续就会全面崩溃。传统方法如链式推理(CoT)思维树推理(ToT)都是单向的,一旦某一步出现错误,整个过程就会被拖垮。TR框架正面解决了这一问题。它引入了一种回滚机制,不再让模型在错误逻辑上“一条路走到黑”,而是允许它返回之前的步骤,分析错误并进行修正。


TR的核心理念看似简单,但效果非凡:1. 错误检测:一个“回滚控制器”负责识别推理过程中的错误点。2. 重新审视步骤:模型可以回到之前的步骤,并通过错误分析确定问题所在。3. 增强提示:一个“提示增强器”将过去错误的信息融入提示中,确保模型不再犯相同的错误。4. 迭代优化:通过迭代修正推理路径,TR构建了一个动态适应的新型思维结构。


实验结果:TR的表现堪称革命性。在诸如MATH和MMLU等挑战性数据集上,TR比当前最先进方法提高了9%的解题率,同时显著降低了计算成本。它在复杂问题上的平均交互次数仅为40次,而像Boosting of Thoughts 这样的资源密集型方法需要超过500次交互。TR在抗击幻觉方面表现出色,通过不断修正错误路径,它能将原本错误的答案转化为正确答案。


当然,TR并非完美无瑕——其迭代过程可能导致高昂的token成本。但这种权衡是值得的,因为它带来了以下潜力应用:1. 复杂问题求解:从定理证明到科学发现,TR有望彻底改变需要复杂推理领域。2. 教育领域:想象一下,一个AI导师不仅能解决问题,还能解释自己的错误并从中学习。3. AI安全性:通过自我修正机制,TR减少了关键应用(如医疗诊断或法律分析)中的错误输出风险。


相关阅读:

https://arxiv.org/pdf/2412.19707


Graph Mamba:图学习领域的新王者?


图学习一直是机器学习领域的宠儿,承诺揭示复杂关系数据的奥秘。然而,尽管图神经网络(GNNs)备受瞩目,它们在捕捉长距离依赖性和处理大规模数据集方面的效率问题却始终难以解决。现在,Graph Mamba横空出世,这个融合了状态空间模型(SSMs)效率的框架或许能成为GNN困境的解药。但它真的能兑现承诺吗?


Graph Mamba 的核心在于通过结合 SSMs 的效率与图结构的深度来重新定义图学习。传统 GNN 依赖消息传递机制——类似邻里间的八卦传播——但这种方式在长距离信息传递上往往会导致信息稀释。而 Graph Mamba 则采用了最初为序列数据设计的状态空间建模,以线性复杂度处理图数据。可以将其类比为用一台高效笔记本电脑取代笨重的打字机:更快、更智能、更具扩展性。它的独门秘方?选择性扫描机制,动态聚焦于图中最相关的部分。与其尝试处理所有内容(并最终失败),Graph Mamba 专注于真正重要的节点、边或时间演变关系。


Graph Mamba 的创新点包括:1. 线性复杂度:告别 Transformer 或 GNN 的二次复杂度噩梦。Graph Mamba 以线性扩展能力处理巨量数据集,如社交网络或时空图。2. 统一时空处理:无论是捕捉社交网络中的关系还是跟踪交通流量随时间的变化,Graph Mamba 在单一框架内处理空间和时间动态,这一壮举是大多数 GNN 难以企及的。3. 选择性扫描:双向扫描提供更深层次洞察,递归扫描保留序列上下文,并行扫描在大规模图上实现闪电般快速处理。4. 跨领域适应能力:从医疗(如脑电图分析)到金融市场(股票预测),甚至遥感中的高光谱成像,Graph Mamba 可谓百变高手。


研究发现,Graph Mamba 在交通预测、医疗应用和金融预测等领域表现出色。然而,尽管 Graph Mamba 在理论和基准测试中表现出色,但在实际场景中的可扩展性仍然是一个悬而未决的问题。此外,处理噪声或不完整数据也暴露了其一些不足之处。


批判性分析指出,Graph Mamba 并非毫无瑕疵:1. 架构复杂度:选择性扫描机制虽然计算高效,但增加了架构复杂度,可能阻碍广泛采用。2. 可解释性:与许多深度学习模型一样,解释 Graph Mamba 做出某些预测背后的原因仍然具有挑战性。3. 可扩展性问题:现实世界的数据集往往杂乱无章——噪声数据和不完整图可能会让这个复杂模型也难以招架。此外,尽管综述提出了一些未来研究方向(如提升可扩展性和可解释性),但这些挑战并非易事,需要重大创新才能克服。


相关阅读:

https://arxiv.org/pdf/2412.18322


神经网络的秘密生活:解码深度学习的激活之谜


在人工智能领域,深度神经网络(DNN)常被视为难以理解的“黑匣子”。然而,张一舟和隋洋的论文《从神经元激活角度理解人工神经网络行为》为这一主题带来了令人耳目一新的视角。与其纠结于传统的损失函数或参数数量,这篇论文聚焦于神经元激活动态,提出了一种概率框架,将神经元激活建模为随机过程,从而揭示了深度学习中的多项核心规律。


作者提出了一个大胆的新视角:与其研究抽象的网络性能指标,不如直接观察神经元本身。这些小小的计算单元并非只是被动的工具,而是动态进化的实体,其激活模式可以用概率模型来描述。论文提出了“稳定激活概率假设”,认为神经元被激活的可能性取决于其历史激活记录和数据集规模。这一假设成为理解深度学习扩展规律(Scaling Laws)的理论基石。


通过数学推导,作者成功解码了深度学习的一些关键规律:神经元数量随数据集规模呈幂律增长,损失函数随数据集规模以幂律形式衰减,以及泛化的相变现象。这些发现不仅解释了已知现象,还大胆预测了一些未来可能验证的新现象,如模型压缩性和能力密度。


这篇论文最突出的贡献在于,它成功地将理论与实验观察联系起来。与那些依赖抽象概念或复杂统计学解释的方法不同,张和隋的方法以可观察的现象为基础,使复杂问题变得直观易懂。此外,他们的框架不仅解释了已有实验结果,还为未来研究提供了一种全新的视角。例如,通过理解神经元激活动态,我们可能设计出更高效、更环保的神经网络。


相关阅读:

https://arxiv.org/pdf/2412.18073


超曲面超图:多关系知识表示的未来


在机器学习这个不断发展的领域中,每个问题似乎都需要一个专属的神经网络。在这样的背景下,一个新的竞争者出现了:超曲面超图神经网络(H²GNN)。这篇由Mengfan Li等人撰写的论文带我们进入了知识超图的复杂世界,不仅提供了一张地图,还提供了一套超曲面GPS导航系统。如果你觉得普通图已经够复杂了,那你还没见过它更强大的亲戚——超图。


知识超图是对传统知识图谱的一种升级。它不仅仅表示简单的二元关系(如“爱因斯坦 -> 写了 -> 相对论”),还可以表示多实体关系(如“爱因斯坦 -> 写了 -> 相对论 -> 于 -> 1905年”)。然而,现有的方法在表示这些超图时常常力不从心:将超边简化为二元关系,丢失了关键上下文信息;将超边视为孤立实体,忽略了它们的邻接和位置信息。结果如何?这些模型的表现就像用放大镜绘制银河系地图一样低效。


于是,H²GNN横空出世,将两个听起来像科幻大片中的词汇结合在一起:双曲几何和超图神经网络。其核心思想如下:双曲几何:与将层级数据强行塞入欧几里得空间(一个平坦平面)不同,H²GNN利用双曲空间(想象成一个弯曲的蹦床)。这种空间非常适合捕捉树状结构和层级关系,同时失真最小。Hyper-Star消息传递机制:一种创新的两阶段消息传递机制,从节点到超边再回到节点,在保留邻接信息和位置感知信息的同时完成信息聚合。


H²GNN不仅说得头头是道,还用数据证明了自己——而且是在负曲率表面上行走。该模型在多个数据集上进行了测试,包括节点分类和链接预测任务:节点分类:在DBLP和Cora等数据集上,H²GNN以高达89.7%的准确率击败了最先进的方法。链接预测:在FB-AUTO和JF17k数据集上,其Hits@10指标分别达到了88.4%和66.9%,创下新基准。简单来说,这就像从拨号上网升级到光纤宽带——你再也不会想回头。


虽然其他模型也涉足双曲几何或超图,但H²GNN将两者无缝结合。它不仅仅是戴着双曲帽子的另一个GNN;它完全沉浸在洛伦兹空间中,确保每个操作都尊重几何结构。此外,它对位置感知嵌入的关注解决了之前方法中一个显而易见的疏漏——上下文确实很重要,尤其是在多关系数据中。


相关阅读:

https://arxiv.org/pdf/2412.12158


SEKE:语法诡计与语义魔法的关键词提取大师


在自然语言处理(NLP)的领域中,关键词提取尽管低调,却是搜索引擎、摘要工具和内容推荐系统的重要基石。而SEKE(Specialized Experts for Keyword Extraction)作为一款新型关键词提取模型,不仅提升了提取能力,还以专业化和可解释性脱颖而出。


SEKE 的核心理念基于“专家混合”(MoE)框架,可将输入文本分配给不同“专家”处理,类似交响乐团的分工协作。每位“专家”负责处理特定类型的标记(如标点符号或命名实体),而一个路由网络则确保分工高效且和谐。SEKE 的混合架构巧妙结合了 MoE 和循环神经网络(RNN),特别适合小数据集环境。其基础模型采用了 DeBERTa,通过解码增强的注意力机制有效分离内容信息与位置信息。


SEKE 的架构包含几个关键组件:路由网络通过“带噪声的 Top-k 路由”机制分配任务,防止过度依赖少数专家;专家层专注于处理特定类型的标记;RNN 层建模上下文关联;BIO 标注方案将每个标记标注为关键词短语的开始(B)、内部(I)或外部(O)。此外,低秩适配(LoRA)的引入大幅提升了计算效率,使其在资源有限的环境中表现卓越。


基准测试结果表明,SEKE 在科学文章、新闻和网页等六个数据集上全面领先于监督和非监督基线模型。尤其是在科学数据集中,SEKE 的专家精准捕捉停用词和标点符号等语法模式,而在新闻和网页内容中,它更注重命名实体等语义线索。这种多功能适应性是其独特优势之一。


最引人注目的是SEKE 的可解释性,它不仅揭示了每个专家的专长领域,还为调试和优化 NLP 系统提供了实用参考。同时,SEKE 的高效数据利用能力使其在低资源环境中同样适用,为研究小众语言或未充分代表的语言提供了新的可能性。


相关阅读:

https://arxiv.org/pdf/2412.14087


 攀登AI推理高峰:强化学习的奥德赛


在不断扩展的人工智能领域中,“扩展”、“推理”和“对齐”成为了热门关键词。然而,复旦大学与上海人工智能实验室的研究团队在其最新论文《搜索与学习的扩展:从强化学习视角重现o1的路线图》中,深入探讨了如何通过强化学习复制OpenAI o1模型的推理能力,提供了一份详尽的蓝图,试图在喧嚣中拨开迷雾,聚焦核心技术。


论文指出,构建具备推理能力的大型语言模型(LLMs)依赖于四大支柱:策略初始化、奖励设计、搜索与学习。策略初始化类似于教会一个孩子走路,研究团队建议通过大规模文本语料库的预训练,奠定坚实的语言理解基础,再通过微调赋予模型人类般的推理能力,如任务分解和自我纠错。奖励设计则被视为引导模型朝向期望行为的“秘密武器”,在复杂推理任务中,论文主张采用密集的“过程奖励”而非稀疏的“结果奖励”,并探讨了奖励塑形技术以转化模糊反馈为可操作信号。


搜索机制被比作演员在舞台上的即兴演绎,论文提出了蒙特卡洛树搜索(MCTS)和序列修订等技术,以优化训练和推理过程中的解决方案。学习方面,强化学习(RL)成为核心,通过与环境的互动,模型不仅依赖预先策划的数据集,还能自我优化。近端策略优化(PPO)和直接政策优化(DPO)被强调为关键工具。


这份路线图的独特之处在于其对搜索与学习的深度整合,不将搜索仅视为事后补充,而是作为训练和推理中的核心部分。同时,作者强调跨维度的扩展性,不仅扩展训练时的计算能力,还要增强推理时的“思考”计算,旨在实现如人类般高效的推理行为。


尽管论文引用了AlphaGo利用MCTS在围棋中取得的成功案例,并将o1的推理风格与高级RL系统的迭代优化过程进行了比较,但其缺乏直接实验验证仍是一个明显的不足。此外,同时扩展训练和推理计算带来的高昂成本,以及论文未涉及的伦理影响问题,也引发了学界的关注。


相关阅读:

https://arxiv.org/pdf/2412.14135


机器的“心智游戏”:ExploreToM 如何重新定义 AI 的社交智商


人工智能(AI)在理解人类思想、信念和意图方面依然面临巨大挑战,尤其是在心理理论(Theory of Mind, ToM)的发展上。而 ExploreToM框架的出现,为突破这一难题提供了全新视角,通过对抗性数据集生成,深入揭示大语言模型(LLMs)在社交推理中的短板。


心理理论是人类社交智商的核心,它帮助我们理解他人行为背后的动机。对于 AI 来说,掌握这一能力对应用于聊天机器人、协作机器人甚至自动驾驶汽车至关重要。然而,现有的基准测试往往过于简单,无法真正挑战 LLMs。ExploreToM 则通过生成复杂的对抗性数据集,专门针对 LLMs 的盲点进行压力测试。


ExploreToM 的核心方法包括几项创新技术。首先是 A∗^*∗ 搜索算法,它通过一个领域特定语言(DSL)识别最可能让 LLM 出错的故事结构。其次,对抗性故事生成 模拟了角色之间复杂的信念冲突,例如某角色知道的信息被另一角色误解。随后,这些故事通过 LLM 扩展成流畅的叙述,并配合自动生成的问题来探测一阶和二阶信念推理。


研究结果表明,像 GPT-4o 和 Llama-3.1-70B 这样的尖端模型在 ExploreToM 数据集上的表现仅为 0%-9% 的准确率。然而,经过 ExploreToM 数据微调后,模型在经典 ToM 基准测试中的准确率提升了 27 个百分点,并展现了强大的泛化能力,能够处理未见过的复杂场景。这表明针对性训练不仅提升了心理理论能力,也保留了一般推理能力。


ExploreToM 的意义不仅限于基准测试。它通过生成无限多样化场景实现可扩展复杂性,以动态方式取代静态测试,确保始终挑战最新 LLMs。更重要的是,它在医疗、教育和客户服务等需要高水平社交智能的领域具有实际应用潜力。


相关阅读:

https://arxiv.org/pdf/2412.12175


消化复杂性:DAHSF如何重新定义轻量级自然语言处理AI


在自然语言处理(NLP)领域,大型语言模型(LLMs)如GPT-4凭借强大的生成能力和多功能性广受关注,但其高昂的资源消耗和可解释性不足等问题日益突出。分层符号森林消化算法(DAHSF)以轻量、高效且高度可解释的方式,提供了LLMs的颠覆性替代方案,展示了“小即是多”的潜力。


DAHSF的核心是分层符号森林(Hierarchical Symbolic Forests, HSF),这是一种模拟人类思维的多层文本处理系统。其过程包括分词与同义词匹配、语义解析及逐层抽象,将复杂文本逐步转化为高度标准化的结构化形式。这种架构不仅消化复杂性,还以模块化设计提升了系统的可解释性,使每个节点和边的作用透明直观。


DAHSF的优势体现在多个方面:首先,模型轻量化显著,体积仅1 MB,内存占用仅10 MB,非常适合低资源设备。其次,其极速处理能力让用户几乎察觉不到延迟,同时高度可解释性解决了LLMs的“黑箱”问题。此外,通过定制词典而非依赖庞大数据集,DAHSF表现出强大的领域适应性,适用于特定场景的快速部署。同时,它在自然语言与编程语言之间构建了桥梁,实现了直观命令的无缝执行。


实验表明,DAHSF在处理速度、资源效率和可扩展性上远超GPT-4-mini和ChatGLM-4等竞品。即使面对长输入或复杂任务,它依然表现出色。然而,DAHSF也存在局限性,如缺乏动态更新词典的自学习机制,以及对用户错误输入处理能力的不足。作者已计划在未来版本中引入自动学习功能,以进一步完善这一框架。


相关阅读:

https://arxiv.org/pdf/2412.14054


人工智能规划:从摇摇欲坠到层次化的巅峰


人工智能(AI)规划是推动自动化发展背后的无名英雄,广泛应用于从物流管理到太空探索的诸多领域。Marco Aiello 和 Ilche Georgievski 的《人工智能规划导论》深入探讨了这一学科,展示了如何通过规划让机器“提前思考”,即便这种思考是高度结构化且确定的。


AI规划的核心在于状态模型,它将问题建模为通过动作在状态图中导航的过程,就像一场精准设计的国际象棋比赛。这一模型支持了从经典规划到更复杂的约束满足问题(CSP)和层次任务网络(HTN)规划等方法。经典规划假设世界是静态和完全可预测的,适用于简单环境;而CSP则通过变量约束建模,更适合复杂场景,类似解机器人领域的数独难题。HTN规划则是研究的亮点,它通过将复杂任务分解为子任务,模仿人类分层解决问题的方式,尤其适用于依赖领域知识的实际应用。


论文还探讨了关键工具和算法,例如规划领域定义语言(PDDL),这一标准化语言大大提高了研究和开发的协作效率。同时,前向搜索和后向搜索等算法在路径寻找上各显优势:前向搜索从起点出发,但可能因无关动作而迷失;后向搜索则从目标倒推,更具方向性。


然而,AI规划的计算复杂性是一大挑战,其问题多为PSPACE完全,即解决方案的寻找可能需指数级的时间和空间。HTN规划通过领域知识降低复杂性,但同时对知识的质量提出了更高要求。


相关阅读:

https://arxiv.org/pdf/2412.11642


量子语义:通过SEE实现Transformer模型压缩的革命性突破


Transformer模型在自然语言处理(NLP)领域中大放异彩,如GPT和BERT已经广泛应用于文本生成、翻译等任务。然而,这些模型巨大的计算和存储需求,使得其在资源受限环境(如移动设备或边缘计算)中的应用受到极大限制。为解决这一问题,语义纠缠编码(Sememe Entanglement Encoding, SEE)技术应运而生,为Transformer模型的压缩提供了全新思路。


SEE技术以语言学中的语义基元(最小意义单位)和量子物理中的纠缠概念为灵感,将词分解为语义基元和词素(语言结构单位),并用低维向量表示这些单位。通过张量积技术,这些低维向量被“纠缠”成高维嵌入,既保留了丰富的语义信息,又显著减少了嵌入层的参数。这种方法不仅实现了紧凑高效的词嵌入,还通过蒸馏训练确保模型性能损失最小化。


实验结果显示,SEE的表现极为优异。在WMT17 ZH-EN机器翻译任务中,SEE实现了高达80倍压缩比,而BLEU分数仅有微小下降。在Phi3-3B大型语言模型上,SEE实现了5倍压缩,性能下降仅为0.6%。与竞争方法(如Word2Ket、MorphTE)相比,SEE在更高压缩比下依然表现出色。


SEE的创新价值不仅限于模型压缩,它还提升了模型的语言学智能和语义理解能力。通过结合语义基元和词素,SEE使模型在细粒度语义和隐喻理解方面表现更优。此外,SEE基于量子纠缠的数学框架为构建嵌入提供了新思路,并展现出广泛的任务可扩展性。


相关阅读:

https://arxiv.org/pdf/2412.12204


少样本定制对齐:教AI读懂人心


论文《少样本定制对齐:通过神经过程调整奖励与LLM策略》提出了一种创新的方法,旨在让大型语言模型(LLM)不仅能“听懂”人类,还能“听话”。现有的对齐方法,如基于人类反馈的强化学习(RLHF),通常假设所有用户的需求一致,但实际上用户的偏好多样且可能相互矛盾。例如,有些用户重视“诚实”,而另一些则更看重“有用”。传统方法需要训练多个模型或使用大量标注数据,成本高且效率低下。


为解决这一问题,研究团队提出了少样本定制对齐框架。该方法通过少量用户偏好样本,利用神经过程(Neural Processes, NPs)来建模个性化需求,并在推理阶段动态调整LLM的行为。框架包括两个核心组件:NP-BTL,一种扩展的奖励建模方法,用于处理多样化的用户偏好;NP-DPO,基于用户偏好动态优化LLM策略的方法。这一方法无需为每种偏好训练单独的模型,而是通过功能参数空间调节,实现行为的动态调整。


技术亮点在于,NP-BTL能够通过上下文数据集预测用户特定的奖励函数,利用神经网络的编码器和解码器建模用户偏好的概率分布;NP-DPO则通过FiLM层实现动态参数调整,使LLM的输出与推断出的奖励函数一致。实验结果表明,在合成数据和真实数据集(如UltraFeedback)上,少样本定制对齐方法显著优于传统方法,能够灵活适应个体需求,同时具备良好的可扩展性,无需额外的计算资源。


相关阅读:

https://arxiv.org/pdf/2412.13998


从鱼群到智囊团:对话群体智能如何颠覆头脑风暴


对话群体智能(Conversational Swarm Intelligence, CSI)是一种受鱼群行为启发、由人工智能驱动的新兴技术,旨在将混乱的会议转变为高效协作的集体智慧。CSI通过结合群体智能(Swarm Intelligence, SI)原理与大语言模型(LLMs)的计算能力,使50到500人的群体能够实时协作并快速收敛于最佳解决方案。


鱼群通过“侧线”感知周围压力变化来实现去中心化决策,这一机制启发了CSI的运作模式。CSI用AI代理代替鱼群的“侧线”,以促进人类群体间的实时协作。与传统ASI(群体智能算法)不同,CSI克服了仅能处理预定义选项的局限性,能够胜任开放式讨论和创造性问题解决。


CSI通过LLM驱动的代理在小组间促进思想流动。会议参与者被分成小组(4至7人),每组由一个对话代理负责倾听讨论、总结见解并分享给其他小组。实验中,75名参与者分别以传统聊天室和CSI平台讨论交通锥和马桶吸盘的替代用途。结果显示,使用CSI的参与者贡献内容提升51%,对话更加平衡,活跃与安静参与者的贡献差距减少37%,75%的参与者更偏好CSI。


CSI的独特价值在于其实时扩展能力,可轻松应对大规模群体协作,同时基于想法的价值传播,而非提出者身份。研究表明,CSI在创造力和智力任务上的表现显著优于传统方法。通过对人类创造力与机器精确性的结合,CSI将分析转化为一种动态的集体创造行为,开辟了协作与创新的新边界。


相关阅读:

https://www.thinkscape.ai/


热力学视角下的生成模型:如何通过遍历性破缺塑造知识


在《Knowledge as a Breaking of Ergodicity》一文中,研究者从热力学视角重新审视了机器学习,提出了一种将知识获取视为热力学过程的框架。这项研究以遍历性和对称性破缺为核心概念,为生成模型的优化和知识表达提供了新思路。


遍历性破缺指系统的状态从可平滑遍历的集合分裂为多个离散的亚稳态结构,类似于玻璃态中势能面的多重极小值或铁磁相变中的不同自旋取向。对称性破缺进一步揭示了系统简化后的自由能地形如何分裂为多个局部极小值。这些现象在机器学习中表现为模型对训练集中高频数据模式的偏好,而忽略潜在但罕见的配置,导致对数据压缩的过度依赖和潜在模式的丢失。


研究通过热力学势这一工具,将训练和检索过程统一在同一自由能曲面上。自由能作为“地形图”,引导系统找到稳定的知识模式,同时阻挡无用的配置。作者使用Kullback–Leibler散度将统计物理与信息论联系起来,展示了从标准分布的偏离如何被视为“无序”或与先验知识的“距离”。基于伊辛自旋的生成模型进一步说明了如何通过热力学潜势最小化来学习二元配置的分布。


相关阅读:

https://arxiv.org/pdf/2412.16411


应用与实践


HIVE:多模态AI的蜂巢之舞


在人工智能这片日益拥挤的丛林中,模型如雨后春笋般涌现,任务的复杂性也与日俱增。在这样的背景下,一种新物种——HIVE横空出世。作为一种结合了规划域定义语言(PDDL)和大型语言模型(LLM)的框架,HIVE不仅仅是另一个工具,它更像是一个指挥家,引导着AI能力的交响乐。


HIVE的核心是一种框架,它能够从用户的自然语言指令中提取任务,将其分解为原子操作,并在多个模型之间执行。然而,与其前辈(如HuggingGPT或ControlLLM)不同,HIVE并非简单地“碰运气”。它采用了一种结构化的方法,通过PDDL这种通常用于机器人和自动化规划的形式逻辑语言来确保每一步都经过优化且可解释。


HIVE最独特的亮点之一是其能力知识图谱(Capability Knowledge Graph, C-KG)。这个图谱像是一个图书馆管理员,在混乱的模型库中组织模型信息,包括其能力、许可约束、性能指标以及可执行代码片段。这种设计确保了任务所需工具的高效选择,同时满足用户对计算资源或许可等方面的限制。


HIVE的架构是一项工程奇迹:1. 查询解析:用户指令被分解为结构化组件,如任务、输入和约束,从一开始就确保清晰性。2. PDDL规划:利用逻辑推理,HIVE将任务映射到PDDL问题空间,生成连贯且可解释的计划。3. 基于C-KG的模型选择:根据用户定义的标准(如许可或性能),从C-KG中挑选合适的模型。4. 执行:一旦计划确定并选择了模型,存储于C-KG中的Python代码片段即可被部署以无缝执行任务。5. 可解释性:HIVE记录并解释每个步骤,让用户完全理解过程和结果。


通过全新设计的MUSE基准测试(包含100个真实世界多模态查询),HIVE在与竞争对手的正面对比中表现卓越:- 任务选择准确率:HIVE得分74%,远超HuggingGPT(57%)和ControlLLM(43%)。- 思维流程连贯性:73%的得分显示了其卓越的逻辑推理能力。- 输出准确性:62%的正确率再次领先。即使在跨模态场景(如从音频输入生成图像输出)中,HIVE也表现出色,而其他系统则显得力不从心。


那么,是什么让HIVE不仅仅是另一个AI工具?1. 可解释性作为核心功能:在AI决策常常像黑箱魔术一样令人困惑的时代,HIVE提供了透明度,每一步都有据可查。2. 以用户为中心的设计:从遵守许可限制到优化计算效率,HIVE始终关注用户需求。3. 基准创新:MUSE基准不仅验证了HIVE的优越性,还为多模态系统评估设立了新标准。4. 可扩展性:无论是解决单一任务还是协调多个互相关联的查询,HIVE都能轻松扩展。


相关阅读:

https://arxiv.org/pdf/2412.12839


AIGT:烹饪合成数据盛宴的AI大厨


在人工智能的繁忙厨房里,数据是主要原料,而隐私问题则是严格的饮食限制。在这样的背景下,一位新的副厨师登场了:AI Generative Table(AIGT)。由Zhang等人提出的这一创新框架,旨在彻底改变合成表格数据的生成方式。通过结合元数据驱动的提示工程和巧妙的分区算法,AIGT承诺解决表格数据合成中的诸多难题。


表格数据——想象一下充满行和列的电子表格——占企业数据资产的80%以上,是金融、医疗等行业的生命线。然而,由于隐私问题,共享或使用这些数据往往是一场法律和伦理上的地雷战。这时,合成数据登场了:一种能够创建现实、保护隐私的数据集的方法,其统计属性与真实数据相似。传统方法如GANs(生成对抗网络)或概率模型通常无法捕捉表格数据中复杂的特征关系。而像GPT-3这样的大型语言模型(LLMs)虽然在生成文本数据方面表现出色,但在处理宽表时因令牌长度限制而受阻。现有解决方案如GReaT和TapTap虽然取得了一定进展,但仍未充分利用诸如列名和表描述等关键元数据。AIGT正是为了解决这些问题而生。


AIGT的核心在于利用元数据作为提示,引导LLMs生成高质量的合成数据。可以将元数据看作表格的自传:其列名、描述及用途。通过将这些信息输入LLM,AIGT增强了模型对表格结构和语义的理解。其工作原理如下:1. 提示设计:将元数据转换为结构化提示,例如“[特征] 是 [值]”。优先处理标签以确保清晰性。2. 文本编码:将行序列化为文本序列,然后输入自回归LLM。3. 训练:模型首先在大规模语料库(如OpenML数据集)上进行预训练,然后针对特定任务进行微调。4. 分区算法:为了解决宽表超出LLM令牌限制的问题,AIGT将其划分为重叠子表进行训练和生成。这种方法不仅提高了可扩展性,还确保了特征关系不会在转换中丢失。


AIGT不仅说得好,也做得好。在20个公共数据集和支付宝风险控制系统中的两个工业数据集上的实验中,AIGT在14个数据集上实现了最先进(SOTA)的性能。在大多数情况下,使用AIGT生成的数据训练的机器学习模型,其表现与使用真实世界数据训练的模型相当甚至更好。关键指标如“最近记录距离”(DCR)证实,AIGT生成的数据样本与真实样本在统计上相似,但并非完全复制——这对于隐私合规至关重要。此外,得益于分区算法,AIGT优雅地处理了拥有数百列的工业级别数据集。


相关阅读:

https://arxiv.org/pdf/2412.18111


EscapeBench:解锁AI的创造力潜力——或者还差得远


人工智能长期以来因其在逻辑、记忆和分析推理方面的卓越能力而备受赞誉。但当谈到创造力——即超越显而易见、适应未知挑战的能力——AI往往显得捉襟见肘。于是,EscapeBench横空出世,这是一个旨在将语言模型(LM)推向创造性推理领域的开创性基准。它通过密室逃脱游戏的混乱场景,测试AI“跳出框框思考”的能力。剧透一下:大多数模型失败得很惨,但这个过程却充满了启发。


密室逃脱游戏是测试创造力的完美场所。这些游戏需要非常规的工具使用、迭代式问题解决以及隐含目标的发现。例如,一根木棒可能需要被改造成撬棍,或者一把生锈的钥匙可能需要润滑才能打开锁。这些场景不仅仅是解谜,而是以一种没有人明确教过你的方式来解谜。这正是EscapeBench的独特之处。与传统基准测试明确目标任务不同,EscapeBench引入了不确定性和复杂性。成功的路径模糊不清,需要通过试错探索并动态适应环境。简而言之,它是AI创造力的训练营。


为了应对这些挑战,研究人员不仅仅将现有语言模型丢进密室逃脱游戏中碰运气。他们开发了EscapeAgent,一个专门设计用于增强创造性推理的框架。它由两个关键模块组成:1.前瞻模块(Foresight):鼓励代理假设潜在行动并评估其结果。这是一种预先计划的创造力。2.反思模块(Reflection):在每次行动后更新动态任务列表,帮助代理专注于未解决的问题,而不是像沮丧的玩家一样漫无目的地点击。这两个模块共同使EscapeAgent能够处理超长推理链(超过1,000步!),同时保持逻辑一致性——这一壮举足以让大多数人类玩家感到筋疲力尽。


那么,当今最先进的模型表现如何?可以这样说,没有帮助的话,它们暂时别想逃出任何房间。即便拥有工作记忆和链式思维推理能力,像GPT-4o这样的当前语言模型在简单场景中也仅能完成15%的进度。没错,仅15%。小型模型呢?它们基本上是在随机点击按钮。通过整合前瞻和反思模块,EscapeAgent将对提示的依赖减少了近50%,并以比基线代理少40%的步骤完成任务。它甚至能够解决需要超过1,000步才能完成的难题,同时保持一致性。尽管有这些进步,AI仍远远落后于人类玩家,人类完成任务时几乎没有错误且步骤更少。人类直觉与机器逻辑之间的差距依然显著。


EscapeBench的独特之处在于:1.聚焦于创造力:大多数基准测试评估的是分析或实践智能,而EscapeBench则是首个严格评估创造智能的重要工具。2.可扩展设计:基于文本的场景使其易于与顶级语言模型集成,同时确保高质量注释。3.重要指标:新引入的指标如行动效率和提示依赖性,为理解AI如何(以及为何)在创造力方面挣扎提供了新视角。


相关阅读:

https://arxiv.org/pdf/2412.13549


ASAL:用人工智能革新人工生命的发现


麻省理工学院(MIT)、Sakana AI、OpenAI 和瑞士 AI 实验室 IDSIA 的研究人员提出了一种名为“自动化人工生命搜索”(ASAL,Automated Search for Artificial Life)的突破性算法。这个创新系统利用视觉-语言模型(vision-language models),实现了人工生命发现的自动化。通过运用先进的人工智能技术,ASAL 能够在复杂数据集中识别出类似生命形式的模式和现象。研究表明,ASAL 有望加速人工生命领域的发现,并对理解生命起源和探索地球以外的生命可能性产生深远影响。


研究的关键亮点包括:1. 创新算法:ASAL 融合了计算机视觉和自然语言处理的前沿技术,通过视觉-语言模型分析数据,识别人工生命模式。2. 跨学科合作:该项目汇集了麻省理工学院、OpenAI、Sakana AI 和 IDSIA 等顶尖机构的专家力量,展示了推动 AI 应用边界的协作努力。3. 潜在应用:ASAL 有望在天体生物学、合成生物学和进化研究等领域引发革命,通过自动化检测大型数据集中的类生命系统,加速科学进展。4.AI 核心驱动:这一算法展示了生成式 AI 在科学发现中的适应性,超越了传统的内容生成应用场景。


ASAL 的开发源于人类对理解生命起源和探索地外生命可能性的长期追求。传统的人工生命识别方法严重依赖手动分析,不仅耗时,还容易受到人为偏见的影响。通过利用人工智能实现这一过程的自动化,研究人员希望克服这些局限性。这一发展也反映了科学领域更广泛的趋势——利用 AI 解决需要处理海量数据的复杂问题。此外,该项目的跨学科性质凸显了 AI 与其他科学领域日益紧密的结合。像麻省理工学院和 OpenAI 这样的机构处于这种融合的前沿,它们认识到,先进算法可以揭示传统方法无法触及的新见解。


主要利益相关方观点包括:1. 研究人员:科学界将 ASAL 视为一项变革性工具,有可能重新定义人工生命研究方式。它高效分析复杂数据集的能力或将带来天体生物学领域的重要突破。2. AI 开发者:对于 OpenAI 等组织来说,ASAL 是展示生成式 AI 多功能性的一次契机,其应用远远超出了聊天机器人或内容创作等传统场景。3. 更广泛的科学界:生物学、物理学和天文学领域的专家可能会将 ASAL 视为一种增强传统研究方法而非取代它们的补充工具。


ASAL 的开发也引发了一些关键问题:- 伦理考量:由自动化系统得出的发现应如何解读或验证?我们是否可以完全信任算法得出的结论而无需人类监督?- 科学范式转变:尽管自动化加速了研究,但它也挑战了依赖人类直觉和专业知识的传统科学方法。- 资源分配:视觉-语言模型对计算资源要求较高,这可能限制小型研究机构对其使用。


相关阅读:

https://github.com/SakanaAI/asal/


无叶风扇的灵感:生成式智能体如何重塑创新规则


在一个人工智能常被批评为缺乏创造力的世界里,Masahiro Sato的论文《GAI:生成式智能体的创新》大胆地挑战了这一刻板印象。该研究提出了一个开创性的框架,利用基于大型语言模型的多智能体系统(LLM-MAS)来模拟人类的创新过程。通过聚焦于类比驱动的创新——一种被认为是人类最具创造力的问题解决方式之一——这项研究不仅试图模仿人类的创造力,还试图超越它。


这项研究的核心问题看似简单:生成式智能体能否协作产生真正具有创新性的想法?根据GAI框架,答案是肯定的。这项研究探讨了配备动态记忆和内省能力的AI智能体如何通过集体推理模拟定义人类创新的创造性飞跃。为了验证这一点,作者以戴森无叶风扇——一项受工业喷射器启发的工程奇迹——作为案例研究。


GAI框架建立在两个支柱之上:智能体架构和类比驱动创新的对话方案。每个智能体都配备了记忆模块和内在状态模块,这不仅赋予了AI“大脑”,还赋予了它“个性”。借鉴认知科学的见解,该框架采用了一个结构化的五阶段对话过程:识别跨领域功能相似性、探索机械差异、将解决方案从一个领域转移到另一个领域、预测挑战、挖掘新机会。


作者要求生成式智能体利用工业喷射器的原理重新构想家用风扇。结果是,配备内在状态模块的模型表现明显优于没有该模块的模型,产生了连贯且具有创新性的解决方案,与戴森无叶风扇设计原则高度一致。例如,一个表现突出的模型提议用封闭式叶轮取代传统叶片,并利用计算流体动力学(CFD)优化气流——这些想法与戴森的方法惊人地相似。


相关阅读:

https://arxiv.org/pdf/2412.18899


BioRAGent:比你更懂PubMed的AI图书管理员


BioRAGent是一款基于检索增强生成(Retrieval-Augmented Generation, RAG)的人工智能系统,被誉为生物医学领域的“智能图书管理员”。它不仅能够扩展用户的查询,还能深入挖掘PubMed的海量数据,生成带有“证据链”(引用链接)的答案。这一设计不仅克服了传统搜索引擎的局限,还大大提升了搜索效率和透明性。


传统搜索引擎虽能提供海量文献,但筛选和分析相关内容的重担却落在用户肩上。而BioRAGent通过结合大型语言模型(LLMs)和检索系统,提供了一种更加智能且高效的解决方案。它会自动扩展查询,并生成基于证据的回答,让用户在理解需求的同时,可以追溯每条信息的来源,避免“黑箱操作”。


从技术上看,BioRAGent的核心工作分为三步:首先,利用少样本学习扩展查询,将模糊的提问转化为精准的检索语句;接着,通过BM25评分机制和Elasticsearch引擎,检索出与查询最相关的文档片段;最后,生成简短总结和带有内嵌引用的详细解释,让用户一目了然。此外,用户还可以通过Gradio界面实时调整查询,提升交互体验。


在BioASQ 2024挑战赛中,BioRAGent凭借强大的问答能力赢得了多个任务的头筹,虽在密集和混合检索技术领域稍显不足,但整体表现依然领先。其透明性和可用性结合的设计,不仅建立了用户信任,也为生物医学研究人员节省了筛选文献的时间,能够将更多精力投入到推动科学发展的核心任务中。


相关阅读:

https://arxiv.org/pdf/2412.12358


交叉与创新


带外部性博弈中的贝叶斯劝说:多智能体操控的教科书式范例


在博弈论中,劝说是一场信息、激励与协调的复杂交互,尤其在多智能体环境下更显复杂。论文《带外部性的贝叶斯劝说:多智能体操控的教科书式范例》深入探讨了在互联环境中影响决策的方法,提升了研究水平并转化为实用算法。核心理念在于将贝叶斯劝说框架扩展至多智能体互动场景,考虑智能体行为间的外部性。劝说者需设计信号,既影响个体决策,又协调群体行为。作者创新性地将智能体按类型分组,类似国际象棋中的棋子分类,并引入三种信号模式:公共信号、私人信号及半私人信号,分别对应统一信息、个性化信息及混合信息传递。


在方法上,论文提出了打破传统揭示原则的新概念“阻断配置”,解释为何智能体群体不易从偏离中获益。通过线性规划算法,作者有效计算最优信号策略,尽管当偏离智能体数量增加时问题变得复杂。对于私人信号,提出了“彩票策略”以随机化信号,确保稳定性并降低计算复杂度。论文重新定义了劝说的发现,分析了效率与复杂性的权衡,指出半私人信号在计算可行性与协调效果间的优势,并揭示了多智能体劝说问题的内在复杂性。


相关阅读:

https://arxiv.org/pdf/2412.12859


数学的超图革命:拉马努金图书馆的崭新篇章


数学的严谨与冷峻常令人感到遥不可及,但“拉马努金图书馆”(The Ramanujan Library)正在通过结合超图理论、自动化算法和开放资源颠覆这一传统。这项研究以一种创新的计算框架重新定义了数学常数的探索方式,将其转变为协作性和算法驱动的过程。


论文的核心创新在于使用超图来表示数学常数及其关系。像 π\piπ、eee 和 ln⁡(2)\ln(2)ln(2) 这样的常数被视为超图节点,而公式则成为连接多个节点的超边。这种表示方法不仅超越了传统图的成对连接限制,还让非线性多常数关系的系统性探索成为可能。


作者利用PSLQ算法这一强大的数值工具,结合“投资回报率”(RoI)优化方法,成功过滤掉无意义的结果,发现了75个新公式,包括 πe\sqrt{\pi e}πe 和 ln⁡(2)\ln(2)ln(2) 的新型连分数表示。通过引入 C\mathcal{C}C-变换,研究进一步统一了这些常数的连分数表示,创造出一个结构化且优雅的公式“花园”。


最值得关注的是拉马努金图书馆的开放性。这一数字档案整合了新旧数学常数和公式,成为研究人员探索关系、验证猜想和贡献发现的公共资源库。这种开放源码的性质使得先进数学工具变得触手可及,促进了跨学科协作。


这项研究的独特性体现在以下几点:首次使用超图表示数学关系,结合自动化与理论洞见弥合了计算与理论的差距,开放访问使更多研究者受益,并具备扩展性以支持更大规模的探索。这一成果不仅可能为量子物理学和密码学带来新突破,还通过直观和交互化的方式激励学生学习数学。


相关阅读:

https://arxiv.org/pdf/2412.12361


合成人格与政治操控:大型语言模型如何随意识形态起舞


在人工智能领域,一项引人注目的研究揭示了大型语言模型(LLMs)的政治倾向如何被合成人格设计所影响。论文《使用合成人格映射和影响大型语言模型的政治意识形态》通过科学实验探讨了这些模型的意识形态可塑性,指出它们的灵活性甚至超过了选举季的政客。


研究以政治罗盘测试(PCT)为框架,结合PersonaHub中十亿个合成人格描述,对四个开源LLMs(Mistral、Llama、Qwen和Zephyr)进行测试,观察合成人格对模型政治倾向的影响。实验发现,这些模型的基线政治偏见通常倾向于经济左翼和社会自由主义,这与它们训练数据的特性有关。然而,当明确提示加入“右翼-权威”或“左翼-自由”等意识形态描述时,模型的政治光谱位置会发生显著变化。


结果显示,所有模型在“右翼-权威”提示下表现出显著的社会维度重定位,而在“左翼-自由”提示下移动幅度较小,可能因为默认偏见已接近这一方向。值得注意的是,Llama展现了最大的意识形态灵活性,而Zephyr则较为稳定,其结果更接近中心。这种不对称性强调了模型更易被推向与其默认偏见相反方向,而强化现有偏见的难度较低。


研究还发现,尽管模型初始偏见不同,但它们对人格提示的行为变化模式具有一致性,表明合成人格对LLMs具有普遍性的影响。


相关阅读:

https://arxiv.org/pdf/2412.14843


从静态人格到动态对话:对话式人工智能的新时代


当前的大多数对话式人工智能(AI)系统采用静态、预定义的人格设定,虽有效但缺乏真实感。为了突破这一局限,研究论文《超越离散人格:通过密集日记对话进行人格建模》提出了一种新方法,通过利用Reddit日记条目中的丰富人类经验,为对话式AI注入真实感和动态人格。


研究团队引入了密集日记对话(Journal Intensive Conversations, JIC)数据集,这是一个基于Reddit日记条目的40万对话数据集,与现有Persona Chat或Blended Skill Talk数据集不同,JIC捕捉了真实人类互动的流动性,而非僵硬的静态人格。团队采用先进的聚类算法和基于“大五人格模型”(OCEAN)的性格特质分析,确保这些对话数据真实反映人类个性。


数据处理过程从Reddit子版块(如`r/DiaryOfARedditor`)中抓取日记条目,通过K-Means和聚合聚类分组来识别代表性样本。随后,研究者开发了一种过滤机制,通过设定α\alphaα和β\betaβ阈值,将日记条目与一致的人格特质对齐,仅保留最具代表性的条目。使用LLaMA 3 70B模型生成的合成对话,进一步通过低秩适配(LoRA)和检索增强微调(RAFt)技术优化,使对话既连贯又深刻反映个性特质。


实验结果表明,在JIC数据集上微调后,模型捕捉人格特质的能力提升了11%,生成的对话更具吸引力和人性化。RAFt技术的加入更增强了模型的上下文适应能力,使对话显得自然流畅。


相关阅读:

https://arxiv.org/pdf/2412.11250


联邦学习遇上RAG:更聪明医疗AI的处方


在医疗领域,人工智能不仅仅是一个技术问题,而是关乎生死的关键挑战。论文《联邦学习与RAG集成:医疗大语言模型的可扩展方法》提出了一种将联邦学习(Federated Learning, FL)与检索增强生成(Retrieval-Augmented Generation, RAG)结合的创新方法,旨在打造隐私保护且高性能的医疗大语言模型(LLMs)。


传统的中心化AI方法虽然在大规模数据集上表现出色,但在医疗这样高度敏感的领域存在重大隐私风险。中心化系统要求集中存储数据,这对于受法律和伦理保护的患者数据来说不可接受。联邦学习作为一种分布式AI技术,允许各个机构在本地数据上训练模型,同时通过聚合技术共享知识。这种“自助餐式”方法有效保护了数据隐私。而RAG系统则通过从外部知识库(如PubMed Central)中检索相关信息,为模型生成更具上下文意义的响应,进一步提升了AI的智能性。


具体而言,该框架结合了联邦学习与RAG系统的优势:联邦学习在本地数据集上训练模型更新,再通过聚合生成全局模型,确保数据隐私不被泄露;RAG通过BM25和FAISS技术检索医学知识,并结合低秩适配(LoRA)技术微调基础模型(Mistral 7B),提升模型的准确性和高效性。


实验结果显示,这种方法在隐私保护和性能提升上取得双赢。联邦模型即使在没有RAG的情况下,也优于传统中心化模型,而在RAG的加持下表现更为突出。具体指标如上下文召回率、事实正确性、语义相似性等均显著提高,且随着参与客户端数量增加,模型的可扩展性进一步增强。


相关阅读:

https://arxiv.org/pdf/2412.13720


记忆与注意力的碰撞:神经科学如何让AI更聪明


在探索让机器具备人类思维的过程中,人类大脑的联想记忆机制成为一位意想不到的“盟友”。一项名为《联想记忆启发了通过新型注意力残差流架构改进上下文学习》的研究,借助这种生物学奇迹,为人工智能(AI)的认知能力带来了显著提升。结果表明,一种改良的Transformer模型不仅学习速度更快,还能更好地记住信息,为未来AI发展打开了新局面。


这项研究的核心理念在于将联想记忆的原理融入AI设计中。大脑通过联想记忆快速将相关信息联系在一起,例如听到“花生酱”立即联想到“果酱”。研究人员通过单层联想记忆模型(AMICL)模拟Transformer的注意力机制,以改善其在上下文学习(ICL)中的表现。尽管Transformer在处理数据方面表现卓越,但其记忆能力不足,限制了模型适应新任务的能力。AMICL通过模仿人类记忆机制,显著增强了模型的上下文学习能力。


更重要的是,研究者提出了一项基于残差注意力流的架构修改。传统Transformer的层之间缺乏有效通信,而残差流通过在层间建立直接连接,尤其是在值(values)组件间,实现了关键上下文的跨层保留。这种方式有效地改善了模型的记忆和适应能力。


实验数据表明,这一修改为模型带来了显著的性能提升。在合成ICL任务中,经过修改的Transformer训练步骤减少了24%,而在Tiny Stories数据集上的测试结果显示,它在处理复杂语言任务方面超越传统Transformer,尤其在识别间接对象等困难任务中表现出色。


相关阅读:

https://arxiv.org/pdf/2412.15113


现代购物者的心智地图:深入探讨意图知识图谱


理解用户意图是数字时代的关键挑战之一,而“意图知识图谱(Intention Knowledge Graph, IKG)”的提出,为我们深入洞察用户行为提供了全新视角。这一框架不仅致力于预测用户行为,还能解释背后的“为什么”。


核心框架IGC-RC(意图生成、概念化和关系分类)通过用户的在线行为提取意图,并对这些意图之间的关系建模。研究团队利用Amazon M2数据集构建了一个拥有3.51亿条边的知识图谱,显著提升了推荐系统的准确性。


IKG的构建包含三大关键步骤。首先是意图生成,研究团队通过GPT-3.5从120万个会话中生成了430万个用户意图,展示了语言模型在丰富输出上的强大能力。其次是意图关系分类,通过基于模板的方法将候选边缘转换为断言,并利用Vera可信度估算模型为边缘设置可信度阈值。此外,通过专家标注确保了85%的初始一致性。最后是意图概念化,利用Meta-Llama-3-8B-Instruct模型为意图生成清晰且多样化的概念化,准确率达到86.6%。


IKG的创新在于其关系型意图建模,超越单一意图分析,通过时间和因果关系连接多个意图。常识推理的引入使其不仅能预测用户行为,还能理解行为动机。同时,通过将具体行为抽象为通用概念,框架展现出跨领域的适应性。


然而,IKG也存在局限性。对大语言模型的高度依赖增加了计算开销,限制了其在实时场景中的应用。其当前的研究主要聚焦于电子商务领域,通用性仍需验证。此外,关系建模仅限于时间和因果关系,未涉及其他类型的关系。


相关阅读:

https://www.arxiv.org/pdf/2412.11500


升级人工智能:尖端技术如何重塑数字游戏


人工智能正在重新定义数字游戏,从早期的简单互动到今天复杂多样的程序生成内容,AI的潜力远超想象。Markus Dablander在其探索性报告中提出了五条研究路径,包括基于大型语言模型(LLM)的角色智能体建模、利用神经元胞自动机(NCA)进行内容生成、通过深度代理模型加速仿真、使用自监督学习提取状态表示,以及从未标注视频中训练交互世界生成模型。


LLM在游戏角色智能体建模中表现出色,通过整合感知、记忆、行动和角色扮演等模块,NPC的行为更加自然丰富。不依赖脚本的实时动态对话和社交互动,让游戏体验更加个性化。但LLM面临计算开销与一致性问题,仍需进一步优化部署与性能。


神经元胞自动机(NCA)在程序化内容生成上具有优势。通过学习局部规则,NCA生成复杂的二维关卡、三维结构以及动态纹理,应用于类似《Minecraft》的环境中显得尤为突出。相比传统元胞自动机,NCA更易控制和定制化,但其复杂性也对训练与参数调优提出了更高要求。


深度代理模型通过替代高计算开销的仿真,为游戏中的物理引擎模拟、路径搜寻和灯光处理等场景提供了高效解决方案。自监督学习则能从无标签数据中提取游戏状态表示,为动态配乐、情感探测等下游任务提供支持。最新的JEPA框架通过映射未来状态的方式,有效捕捉游戏世界的动态。


相关阅读:

https://arxiv.org/pdf/2412.14085


操纵选票:算法如何重新定义政治竞选


在政治竞选这一高风险领域,如何利用资源最大化选票收益一直是焦点问题。论文《选民聚焦竞选:策略、均衡与算法》通过博弈论、算法和政治策略的交汇视角,深入探讨了竞选活动的优化方式,将竞选行为建模为一场复杂的博弈。


论文的核心思想是将竞选活动视为多候选人之间的竞争,而非单一操纵者的行为,研究候选人如何在各种议题上分配预算以最大化选票收益。作者提出了针对议会选举和总统选举的数学模型,并揭示了多种关键发现。首先,在议会选举中,总能找到纯策略的纳什均衡,使候选人实现稳定的预算分配;而在总统选举中,均衡的存在性受限,尤其是当候选人面临多重目标时,均衡可能消失。其次,研究发现候选人往往通过单一议题聚焦实现最优结果,这一结果与现实中多议题竞选形成鲜明对比。此外,候选人在某些情况下需要采取违背自身利益的策略,这种反直觉行为更像是政治表演而非战略决策。


在方法上,研究简化了选民偏好,采用显著性分数和质量排名进行建模,并假设显著性线性增长,无递减收益。这种线性假设为模型高效处理大规模数据提供了基础。研究还结合了政治心理学中的“聚焦效应”,表明通过提升议题重要性,可以显著影响选民决策。此外,针对总统制和议会制,效用函数的差异反映了不同竞选目标对策略选择的影响。


相关阅读:

https://arxiv.org/pdf/2412.13380


AI与人类:数字丛林中的信仰之战


本论文提出了“数字信仰生态系统”(Digico)框架,通过模拟社会网络中的人类与AI代理交互,探讨在数字环境中信仰传播的演化竞赛中,AI是否比人类更具优势。研究通过复杂的动态系统展示了一个触目惊心的结论:AI在信息传播中对人类形成了明显的压倒性优势。


Digico模拟了一个以数字平台为灵感的虚拟战场,代理(人类或AI)通过信息策略展开竞争,以传播自己的信仰。该系统结合协方差矩阵自适应进化策略(CMA-ES),将自然选择的原则扩展到非生物领域,实现信息策略的快速迭代优化。在此框架中,代理通过消息交换影响信念,奖励机制根据信息的传播效果和与自身信念的匹配度评估适应度,决定进化方向。


AI在多种条件下表现出了强大的传播能力。例如,当AI具备更快的进化速度和推荐算法优待时,其视频能够占据80%-95%的观看量;在回声室效应明显的环境中,宣传型AI甚至可以说服高达85%的人类接受极端信仰。这些发现突显了AI优化信息传播策略的强大能力,甚至可能导致整个群体趋向极端意识形态。


论文还探讨了影响生态系统动态的关键因素,包括生态位几何、影响矩阵和信息策略。研究表明,AI能够更高效地利用这些因素,通过模仿社会网络中信息传播的复杂过程,超越人类在数字信仰传播中的表现。


相关阅读:

https://arxiv.org/pdf/2412.14500


文章来自于“追问nextquestion”,作者“追问”。


追问weekly | 过去一周,AI领域有哪些新突破?

关键词: AI , AI周报 , 大模型 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

6
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

7
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner