AI技术研报-这里有最前沿的人工智能技术解读

清华团队破解具身智能Scaling Law，GPT时刻在即！宁德时代联创终于出手

半年两次大融资后，这家具身智能黑马再次获得融资！作为柏睿资本首次投资的具身智能企业，千寻智能不仅拥有出身自伯克利系联创，在技术、硬件、商业化上，也让人极有信心。

来自主题: AI技术研报

4912 点击 2024-11-11 15:05

两位本科生一作，首次提出「持续学习」+「少样本」知识图谱补全 | CIKM 2024

上海大学本科生研发的新框架能有效应对知识图谱补全中的灾难性遗忘和少样本学习难题，提升模型在动态环境和数据稀缺场景下的应用能力。这项研究不仅推动了领域发展，也为实际应用提供了宝贵参考。

来自主题: AI技术研报

4381 点击 2024-11-11 14:57

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

大型语言模型（LLM）最近在各种数学benchmark上疯狂刷分，动辄90%以上的正确率，搞得好像要统治数学界一样。然而，Epoch AI看不下去了，联手60多位顶尖数学家，憋了个大招——FrontierMath，一个专治LLM各种不服的全新数学推理测试！结果惨不忍睹，LLM集体“翻车”，正确率竟然不到2%！

来自主题: AI技术研报

6328 点击 2024-11-11 14:36

12 个 RAG 痛点和建议的解决方案-解决检索增强生成的核心挑战

受到 Barnett 等人的论文《设计检索增强生成系统时的七个故障点》的启发，让我们在本文中探讨该论文中提到的七个故障点以及开发 RAG 管道时的另外五个常见痛点。

来自主题: AI技术研报

12885 点击 2024-11-10 22:05

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

一个5月份完成训练的大模型，无法对《黑神话·悟空》游戏内容相关问题给出准确回答。

来自主题: AI技术研报

5334 点击 2024-11-10 14:40

谷歌苹果曝出LLM惊人内幕，自主识别错误却装糊涂！AI幻觉背后藏着更大秘密

大模型幻觉，究竟是怎么来的？谷歌、苹果等机构研究人员发现，大模型知道的远比表现的要多。它们能够在内部编码正确答案，却依旧输出了错误内容。

来自主题: AI技术研报

5979 点击 2024-11-10 14:11

哈佛推出全新类ChatGPT癌症诊断AI，登上Nature！准确率高达96%

能够执行多种任务，识别19种癌症类型，预测患者生存率……哈佛医学院研究人员提出CHIEF，一种多功能AI癌症诊断模型，表现出类似于ChatGPT的灵活性，远超其他现有的癌症诊断模型。

来自主题: AI技术研报

4055 点击 2024-11-10 14:05

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界？

该文章的第一作者陈麒光，目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。该研究主要提出了推理边界框架（Reasoning Boundary Framework, RBF），首次尝试量化并优化思维链推理能力。

来自主题: AI技术研报

5697 点击 2024-11-10 13:50

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

周期性现象广泛存在，深刻影响着人类社会和自然科学。作为最重要的基本特性之一，许多规律都显式或隐式地包含周期性，例如天文学中的行星运动、气象学中的季节变化、生物学中的昼夜节律、经济学中的商业周期、物理学中的电磁波以及数学运算和逻辑推理等。因此，在许多任务和场景中，人们希望对周期进行建模，以便根据以往的经验进行推理。

来自主题: AI技术研报

4077 点击 2024-11-10 13:43

$清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分$

清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分

大模型的记忆限制被打破了，变相实现“无限长”上下文。最新成果，来自清华、厦大等联合提出的LLMxMapReduce长本文分帧处理技术。

来自主题: AI技术研报

6214 点击 2024-11-09 15:38

MetaGPT开源自动生成智能体工作流，4.55%成本超GPT-4o

对于 LLM 从业者来说，让 LLM 落地应用并发挥作用需要手动构建并反复调试 Agentic Workflow，这无疑是个繁琐过程，一遍遍修改相似的代码，调试 prompt，手动执行测试并观察效果，并且换个 LLM 可能就会失效，有高昂的人力成本。许多公司甚至专职招聘 Prompt Engineer 来完成这一工作。

来自主题: AI技术研报

5962 点击 2024-11-09 10:31

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

近日，卡内基梅隆大学与华盛顿大学的研究团队推出了 NaturalBench，这是一项发表于 NeurIPS'24 的以视觉为核心的 VQA 基准。它通过自然图像上的简单问题——即自然对抗样本（Natural Adversarial Samples）——对视觉语言模型发起严峻挑战。

来自主题: AI技术研报

4106 点击 2024-11-09 10:27

清华大学自动化系李梢团队提出基于AI的肿瘤中西医防治新范式

随着生物医学研究进入人工智能时代，如何运用AI前沿技术，深入挖掘中医药在肿瘤防治上的特色理论与实践经验，形成中西医融合的肿瘤防治新范式？这既是中西医学面临的共性难题，也是人工智能与信息科学面临的重大挑战。

来自主题: AI技术研报

4511 点击 2024-11-09 10:19

生成式AI，一年或造50万吨垃圾

智东西11月8日报道，生成式AI的发展或将加剧电子垃圾问题。

来自主题: AI技术研报

2914 点击 2024-11-09 09:46

一个弹窗整懵Claude，瞬间玩不转电脑了 | 斯坦福&港大新研究

纳尼？AI Agent容易受到弹幕影响！甚至比人类更容易。

来自主题: AI技术研报

4318 点击 2024-11-08 19:54

评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024

能够深入大模型内部的新评测指标来了！上交大MIFA实验室提出了全新的大模型评估指标Diff-eRank。不同于传统评测方法，Diff-eRank不研究模型输出，而是选择了分析其背后的隐藏表征。

来自主题: AI技术研报

5012 点击 2024-11-08 19:43

RAGEval：实现实际场景检索增强生成系统（RAG）的“精准诊断”

清华大学NLP实验室联合北京师范大学、中国科学院大学、东北大学等机构的研究人员推出了全新的评测方法 RAGEval，通过快速构建场景化评估数据实现对检索增强生成（RAG）系统的“精准诊断”。

来自主题: AI技术研报

5954 点击 2024-11-08 19:31

聚焦「视听触感官」协同配合的具身精细操纵，人大胡迪团队领衔探索机器人模态时变性挑战

中国人民大学高瓴人工智能学院 GeWu 实验室、朝闻道机器人和 TeleAI 最近的合作研究揭示并指出了 “模态时变性”（Modality Temporality）现象，通过捕捉并刻画各个模态质量随物体操纵过程的变化，提升不同信息在具身多模态交互的感知质量，可显著改善精细物体操纵的表现。论文已被 CoRL2024 接收并选为 Oral Presentation。

来自主题: AI技术研报

5804 点击 2024-11-08 19:26