AI技术研报-这里有最前沿的人工智能技术解读

无人机：不是我想长腿，《Nature》论文说这样更省力

在瑞士日内瓦湖畔，洛桑联邦理工学院（EPLF）不仅是机器人专家们的圣地，更是各种小鸟的「快乐大本营」。然而，小鸟们现在似乎不太热衷于飞行了，更喜欢在地面上悠哉游哉地散步，反正好吃的遍地都是。

来自主题: AI技术研报

6209 点击 2024-12-14 13:56

久等了，DeepSeek开源视觉模型DeepSeek-VL2来了

阔别九月，大家期待的 DeepSeek-VL2 终于来了！DeepSeek-MoE 架构配合动态切图，视觉能力再升级。从视觉定位到梗图解析，从 OCR 到故事生成，从 3B、16B 再到 27B，DeepSeek-VL2 正式开源。

来自主题: AI技术研报

10357 点击 2024-12-14 10:17

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

Mamba 这种状态空间模型（SSM）被认为是 Transformer 架构的有力挑战者。近段时间，相关研究成果接连不断。而就在不久前，Mamba 作者 Albert Gu 与 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同创立的 Cartesia 获得 2700 万美元种子轮融资。

来自主题: AI技术研报

7260 点击 2024-12-13 17:21

OpenAI发布49页长文，讲述o1的安全机制

嘿！最近 AI 圈都在关注 OpenAI 的连续 12 场直播。就在直播开播同一天，OpenAI 也出炉了 o1 系统卡（o1 System Card），今天咱们就来啃啃这块硬骨头。

来自主题: AI技术研报

7285 点击 2024-12-13 16:53

微软出招！新模型数学超GPT-4o编程胜Llama3.3，训练新范式引热议：midtraining

OpenAI谷歌天天刷流量，微软也坐不住了，推出最新小模型Phi-4。参数量仅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B级别大模型坐一桌。

来自主题: AI技术研报

6795 点击 2024-12-13 15:14

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

因为流匹配的公式很简单，并且生成样本的路径很直接，最近越来越受研究者们的欢迎，于是很多人都在问：「到底是扩散模型好呢？还是流匹配好？」

来自主题: AI技术研报

6361 点击 2024-12-13 15:00

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

大语言模型（LLMs）通过更多的推理展现出了更强的能力和可靠性，从思维链提示发展到了 OpenAI-o1 这样具有较强推理能力的模型。

来自主题: AI技术研报

5793 点击 2024-12-13 14:40

再也不怕显存爆炸了！高效重建「几何精准」的大规模复杂三维场景，中科院提出CityGaussianV2

来自中科院自动化所的研究团队提出了用于大规模复杂三维场景的高效重建算法CityGaussianV2，能够在快速实现训练和压缩的同时，得到精准的几何结构与逼真的实时渲染体验。

来自主题: AI技术研报

6367 点击 2024-12-13 14:32

LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

Transformer模型自2017年问世以来，已成为AI领域的核心技术，尤其在自然语言处理中占据主导地位。然而，关于其核心机制“注意力”的起源，学界存在争议，一些学者如Jürgen Schmidhuber主张自己更早提出了相关概念。

来自主题: AI技术研报

6264 点击 2024-12-13 14:24

我们距离AGI还有多远？6个认知框架，看懂智能体、智能自动化与自主工作的级别分类

我们距离AGI还有多远？智能体、智能体自动化的5个级别与自主工作的6个level

来自主题: AI技术研报

5700 点击 2024-12-13 13:52

守护好你的秘密！警惕前沿AI模型已具备策划能力：一项令人震惊的研究发现

最近，Apollo Research团队发布了一项令人深思的研究。这项研究揭示了一个惊人的发现：当前主流的前沿AI模型已经具备了基本的"策划"（Scheming）能力。

来自主题: AI技术研报

5131 点击 2024-12-13 13:42

人工评估 | 基础概念

人工评估是指让人类评价模型输出回答的好坏。本文讨论的都是后验评估，即模型已经完成训练，给定一个任务让人类进行评估。

来自主题: AI技术研报

3928 点击 2024-12-13 13:32

卷起来了！长文本向量模型分块策略大比拼

长文本向量模型能够将十页长的文本编码为单个向量，听起来很强大，但真的实用吗？很多人觉得... 未必。直接用行不行？该不该分块？怎么分才最高效？本文将带你深入探讨长文本向量模型的不同分块策略，分析利弊，帮你避坑。

来自主题: AI技术研报

7850 点击 2024-12-13 11:33

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，模型剪枝、合并等也无所遁形

大模型“套壳”事件防不胜防，有没有方法可以检测套壳行为呢？来自上海AI实验室、中科院、人大和上交大的学者们，提出了一种大模型的“指纹识别”方法——REEF（Representation Encoding Fingerprints）。

来自主题: AI技术研报

5755 点击 2024-12-13 11:24

《2024年度AI十大趋势报告》发布：技术创新、产品洗牌、行业动态一文看尽

站在年尾来看，奔涌的AI浪潮呈现出怎样的趋势？又给2025年留下了什么样的伏笔？ 3个视角维度，10大年度趋势，在量子位智库今日重磅发布的《2024年度AI十大趋势报告》中清晰详尽地呈现。

来自主题: AI技术研报

6636 点击 2024-12-13 11:10

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

Apple MM1Team 再发新作，这次是苹果视频生成大模型，关于模型架构、训练和数据的全面报告，87 亿参数、支持多模态条件、VBench 超 PIKA，KLING，GEN-3。

来自主题: AI技术研报

4099 点击 2024-12-12 21:57

超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

Hyper-YOLO是一种新型目标检测方法，通过超图计算增强了特征之间的高阶关联，提升了检测性能，尤其在识别复杂场景下的中小目标时表现更出色。

来自主题: AI技术研报

6717 点击 2024-12-12 14:35

Sora终于来了，但卷王可灵已经「拍」上了AI电影

6个月迭代10余次，快手可灵一路狂飙。这次，轮到名导们下场整活了。短片一开场就相当震撼：钟馗手持一把斩鬼剑，穿行在一片乌漆麻黑、虬枝盘曲的密林中。

来自主题: AI技术研报

6991 点击 2024-12-12 10:57

Prompt"肿瘤"的克星：Language Hooks框架将工具与提示分离，增强LLM推理

开发AI应用的朋友们都有深刻的感受，在实际应用开发中，如何让LLM高效地使用外部工具，一直是困扰Prompt工程师的一个关键问题。最近，来自Faculty Science Ltd的研究团队提出的Language Hooks框架，为这个问题提供了一个令人耳目一新的解决方案。

来自主题: AI技术研报

6352 点击 2024-12-12 10:30

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

一般而言，LLM 被限制在语言空间（language space）内进行推理，并通过思维链（CoT）来表达推理过程，从而解决复杂的推理问题。

来自主题: AI技术研报

6270 点击 2024-12-12 10:19

NeurIPS 2024 | LLM智能体真能模拟人类行为吗？答案有了

在这篇论文中，我们专注于人类互动中的信任行为，这种行为通过依赖他人将自身利益置于风险之中，是人类互动中最关键的行为之一，在日常沟通到社会系统中都扮演着重要角色。

来自主题: AI技术研报

7434 点击 2024-12-12 10:11

数字比你想得更复杂——一文带你了解大模型数字处理能力的方方面面

目前大语言模型（Large Language Models, LLMs）的推理能力备受关注。从思维链（Chain of Thought，CoT）技术提出，到以 o1 为代表的长思考模型发布，大模型正在展现出接近人类甚至领域专家的水平，其中数学推理是一个典型任务。

来自主题: AI技术研报

7644 点击 2024-12-12 10:06

DeepMind悄悄发布PaliGemma二代，最易微调「视觉语言全能王」来了，多项任务登顶SOTA

PaliGemma 2在多个任务上取得了业界领先的成绩，包括图像描述、乐谱识别和医学图像报告生成；并且提供了不同尺寸和分辨率的版本，用户可以根据不同的任务需求进行微调，以获得更好的性能。

来自主题: AI技术研报

4026 点击 2024-12-11 17:22

ChatGPT深夜福利，Canvas生产力神器史诗级升级！跑代码改bug，AGI界面大革新

OpenAI Day 4，Canvas重大升级，所有用户皆可使用！它不仅能与人类写作编辑文档、运行和调试Python，还整合进自定义GPTs中，成为更丝滑的打工神器。

来自主题: AI技术研报

5181 点击 2024-12-11 17:10

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

多模态大模型在听觉上，居然也出现了「9.11>9.8」的现象，音量大小这种简单问题都识别不了！港中文、斯坦福等大学联合发布的AV-Odyssey基准测试，包含26个视听任务，覆盖了7种声音属性，跨越了10个不同领域，确保测试的深度和广度。

来自主题: AI技术研报

6237 点击 2024-12-11 16:46

AI用北京话念绕口令，清华、智谱团队打造GLM-4-Voice，更智能、懂情绪，已开源

实现智能、类似人类的端到端语音聊天。

来自主题: AI技术研报

6281 点击 2024-12-11 16:03

TypedThinker框架，多维度推理Prompt让LLM推理更精准，卡梅隆和Qwen团队最新

大语言模型（LLMs）在推理任务上展现出了令人瞩目的能力，但其推理思维方式的单一性一直是制约性能提升的关键瓶颈。目前的研究主要关注如何通过思维链（Chain-of-Thought）等方法来提升推理的质量，却忽视了一个重要维度——推理类型的多样性。

来自主题: AI技术研报

7877 点击 2024-12-11 10:16

NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

随着 ChatGPT 掀起的 AI 浪潮进入第三年，人工智能体（AI Agent）作为大语言模型（LLM）落地应用的关键载体，正受到学术界和产业界的持续关注。

来自主题: AI技术研报

7005 点击 2024-12-11 09:48

从线性注意力视角揭秘视觉Mamba，清华、阿里合作提出全新MILA模型

Mamba 是一种具有线性计算复杂度的状态空间模型，它能够以线性计算复杂度实现对输入序列的有效建模，在近几个月受到了广泛的关注。

来自主题: AI技术研报

6390 点击 2024-12-11 09:33

1600万视频解锁「空间智能」？智源3D生成模型See3D全套开源

上周，李飞飞空间智能首个3D生成模型刚刚交卷。这边，国内来自智源的See3D模型，在学习了无标注的1600万个视频之后，重建出全新的3D世界，效果令人惊叹。

来自主题: AI技术研报

6389 点击 2024-12-10 16:40