AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物

历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物

历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物

这是生成式大模型的时代 —— 它们能生成文本、图像、音频、视频、3D 对象…… 而如果将所有这些组合到一起,我们可能会得到一个世界!

来自主题: AI技术研报
6826 点击    2024-12-19 15:26
全面超越CoT!Meta田渊栋团队新作:连续思维链

全面超越CoT!Meta田渊栋团队新作:连续思维链

全面超越CoT!Meta田渊栋团队新作:连续思维链

针对大语言模型的推理任务,近日,Meta田渊栋团队提出了一个新的范式:连续思维链,对比传统的CoT,性能更强,效率更高。

来自主题: AI技术研报
7443 点击    2024-12-19 13:33
ToT被华为诺亚方舟实验室升级了,Forest-of-Thought:让LLM多路径推理的Prompt框架

ToT被华为诺亚方舟实验室升级了,Forest-of-Thought:让LLM多路径推理的Prompt框架

ToT被华为诺亚方舟实验室升级了,Forest-of-Thought:让LLM多路径推理的Prompt框架

大语言模型(LLM)在自然语言处理领域取得了巨大突破,但在复杂推理任务上仍面临着显著挑战。现有的Chain-of-Thought(CoT)和Tree-of-Thought(ToT)等方法虽然通过分解问题或结构化提示来增强推理能力,但它们通常只进行单次推理过程,无法修正错误的推理路径,这严重限制了推理的准确性。

来自主题: AI技术研报
7939 点击    2024-12-19 12:37
微调时无需泄露数据或权重,这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

微调时无需泄露数据或权重,这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

微调时无需泄露数据或权重,这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

要让大模型适应各不一样的下游任务,微调必不可少。常规的中心化微调过程需要模型和数据存在于同一位置 —— 要么需要数据所有者上传数据(这会威胁到数据所有者的数据隐私),要么模型所有者需要共享模型权重(这又可能泄露自己花费大量资源训练的模型)。

来自主题: AI技术研报
6545 点击    2024-12-19 10:15
用上AI,升职提前4年?清华等分析6790万篇论文:科学界收缩,不用AI的领域无人问津

用上AI,升职提前4年?清华等分析6790万篇论文:科学界收缩,不用AI的领域无人问津

用上AI,升职提前4年?清华等分析6790万篇论文:科学界收缩,不用AI的领域无人问津

AI真是助力科研的神器,不光能用大模型提升写作效率,跟AI技术沾边的论文中顶刊的概率也会增加,升职速度也会提升;但对于科学界来说,大家都一股脑去研究AI,那些不能用AI的领域受到了冷落,最终导致整体科研多样性下降。

来自主题: AI技术研报
5087 点击    2024-12-18 20:04
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿势和情绪表达。

来自主题: AI技术研报
6608 点击    2024-12-18 14:38
让多视角图像生成更轻松!北航和VAST推出MV-Adapter

让多视角图像生成更轻松!北航和VAST推出MV-Adapter

让多视角图像生成更轻松!北航和VAST推出MV-Adapter

最近,2D/3D 内容创作、世界模型(World Models)似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一,多视角图像生成是上述热点方向的技术基础,在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。

来自主题: AI技术研报
7034 点击    2024-12-18 14:31
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL 提出了使用生成式视觉编码器 Florence-2 作为多模态模型的视觉信息输入,克服了传统视觉编码器(如 CLIP)仅提供单一视觉表征而往往忽略图片中关键的局部信息。

来自主题: AI技术研报
7197 点击    2024-12-18 14:21
NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架

NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架

NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架

现如今,以 GPT 为代表的大语言模型正深刻影响人们的生产与生活,但在处理很多专业性和复杂程度较高的问题时仍然面临挑战。在诸如药物发现、自动驾驶等复杂场景中,AI 的自主决策能力是解决问题的关键,而如何进行决策大模型的高效训练目前仍然是开放性的难题。

来自主题: AI技术研报
7358 点击    2024-12-18 09:47
USENIX Sec'25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了

USENIX Sec'25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了

USENIX Sec'25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了

LLM 强大的语言能力,使其被广泛部署于 LLM 应用系统(LLM-integrated applications)中。此时,LLM 需要访问外部数据(如文件,网页,API 返回值)来完成任务。

来自主题: AI技术研报
5145 点击    2024-12-18 09:36
语言游戏让AI自我进化,谷歌DeepMind推出苏格拉底式学习

语言游戏让AI自我进化,谷歌DeepMind推出苏格拉底式学习

语言游戏让AI自我进化,谷歌DeepMind推出苏格拉底式学习

近日,谷歌DeepMind的研究人员推出了苏格拉底式学习,在没有外部数据的情况下,让AI通过语言游戏不断变强。

来自主题: AI技术研报
6355 点击    2024-12-17 14:40
北大开源全新图像压缩感知网络:参数量、推理时间大幅节省,性能显著提升 | 顶刊TPAMI

北大开源全新图像压缩感知网络:参数量、推理时间大幅节省,性能显著提升 | 顶刊TPAMI

北大开源全新图像压缩感知网络:参数量、推理时间大幅节省,性能显著提升 | 顶刊TPAMI

PCNet网络具有创新的协同采样算子和优化的重建网络,实验结果证明,其在图像重建精度、计算效率和任务扩展性方面均优于现有方法,为高分辨率图像的压缩感知提供了新的解决方案。

来自主题: AI技术研报
7375 点击    2024-12-17 14:35
微信正式发布多模态大模型POINTS1.5

微信正式发布多模态大模型POINTS1.5

微信正式发布多模态大模型POINTS1.5

距离 POINT1.0 的发布已经过去两个月时间来,在这段时间业界不断涌现出一系列优秀的模型。我们通过不断紧跟前沿技术,并结合过去开发多模态模型沉淀下来的经验,对 POINTS1.0 进行了一系列更新,推出了 POINTS1.5。

来自主题: AI技术研报
8611 点击    2024-12-17 10:52
视频一键拆分PS层!DeepMind新模型效果碾压同级,物体、背景完美分离,还能脑补

视频一键拆分PS层!DeepMind新模型效果碾压同级,物体、背景完美分离,还能脑补

视频一键拆分PS层!DeepMind新模型效果碾压同级,物体、背景完美分离,还能脑补

DeepMind的研究人员开发了一种视频分层新方法,可以无需假设背景静止或精确的相机姿态,就能将视频分解成包含物体及其效果(如阴影和反射)的多个层,提升了视频编辑的灵活性和效率。

来自主题: AI技术研报
6858 点击    2024-12-17 10:16
图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

MAPLE实验室提出通过强化学习优化图像生成模型的去噪过程,使其能以更少的步骤生成高质量图像,在多个图像生成模型上实现了减少推理步骤,还能提高图像质量。

来自主题: AI技术研报
6192 点击    2024-12-17 09:54
与1500多支国内外队伍同台竞技,快手在NeurIPS 2024顶级大赛中上演双杀

与1500多支国内外队伍同台竞技,快手在NeurIPS 2024顶级大赛中上演双杀

与1500多支国内外队伍同台竞技,快手在NeurIPS 2024顶级大赛中上演双杀

这几天,学术圈的小伙伴肯定都很关注正在加拿大温哥华举办的机器学习顶会——NeurIPS 2024。本届会议于今日落下帷幕,共接收 15671 篇有效论文投稿,比去年增长了 27%,最终接收率为 25.8%。

来自主题: AI技术研报
5281 点击    2024-12-16 16:54
世界模型进入4D时代!单视角视频构建的自由视角4D世界来了

世界模型进入4D时代!单视角视频构建的自由视角4D世界来了

世界模型进入4D时代!单视角视频构建的自由视角4D世界来了

人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期,李飞飞教授团队通过单张图片生成三维物理世界的研究,再次向世界展示了空间智能技术的巨大潜力。

来自主题: AI技术研报
5088 点击    2024-12-16 16:09
Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

Scaling Law不仅在放缓,而且不一定总是适用! 尤其在文本分类任务中,扩大训练集的数据量可能会带来更严重的数据冲突和数据冗余。

来自主题: AI技术研报
6434 点击    2024-12-16 09:43
AI时代写Prompt应该用APPL:为Prompt工程打造的编程语言,来自清华姚班的博士

AI时代写Prompt应该用APPL:为Prompt工程打造的编程语言,来自清华姚班的博士

AI时代写Prompt应该用APPL:为Prompt工程打造的编程语言,来自清华姚班的博士

在人工智能快速发展的今天,大语言模型(LLM)已经成为改变世界的重要力量。然而,如何高效地编写、管理和维护提示词(Prompt)仍然是一个巨大的挑战。

来自主题: AI技术研报
7662 点击    2024-12-16 09:39
红杉资本2025 AI展望 - AI in 2025

红杉资本2025 AI展望 - AI in 2025

红杉资本2025 AI展望 - AI in 2025

Sequoia Capital(红杉资本) 最近发表了一篇文章《AI in 2025: Building Blocks Firmly in Place》,对2025年的AI发展趋势做了三个预测,一定程度上反映了资本对于大模型方向一些定性判断。

来自主题: AI技术研报
10793 点击    2024-12-15 20:19
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?

万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?

万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?

全网独一份o1 pro架构爆料来了!首创自洽性机制打破推理极限,「草莓训练」系统首次揭秘。更令人震惊的是,OpenAI和Anthropic自留Orion、Claude 3.5超大杯,并不是内部失败了,而是它们成为数据生成的秘密武器。

来自主题: AI技术研报
5497 点击    2024-12-14 14:35
KDD2025 | 多标签节点分类场景下,阿里安全&浙大对图神经网络增强发起挑战

KDD2025 | 多标签节点分类场景下,阿里安全&浙大对图神经网络增强发起挑战

KDD2025 | 多标签节点分类场景下,阿里安全&浙大对图神经网络增强发起挑战

ACM SIGKDD(简称 KDD)始于 1989 年,是全球数据挖掘领域历史最悠久、规模最大的国际顶级学术会议。KDD 2025 将于 2025 年 8 月 3 日在加拿大多伦多举办。

来自主题: AI技术研报
6613 点击    2024-12-14 14:00