AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
腾讯混元最新开源成“最强翻译”:国际机器翻译比赛获30个语种第一

腾讯混元最新开源成“最强翻译”:国际机器翻译比赛获30个语种第一

腾讯混元最新开源成“最强翻译”:国际机器翻译比赛获30个语种第一

腾讯混元,刚刚又拿下一个国际冠军—— Hunyuan-MT-7B,以7B总参数量获得国际翻译比赛冠军。该模型支持33个语种、5种民汉语言/方言互译,是一个能力全面的轻量级翻译模型。

来自主题: AI技术研报
4838 点击    2025-09-03 16:57
谷歌nano banana官方最强Prompt模板来了!先收藏再说

谷歌nano banana官方最强Prompt模板来了!先收藏再说

谷歌nano banana官方最强Prompt模板来了!先收藏再说

nano banana爆火!网上看到的那些超强效果图是如何生成的呢?谷歌的官方Prompt模板终于来了!赶紧先收藏再说!

来自主题: AI技术研报
6789 点击    2025-09-03 13:54
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

在这场以大型语言模型(LLM)为核心的 AI 浪潮中,苹果似乎一直保持着低调,很少出现在技术报道的前沿。尽管如此,时不时地,该公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接运行的高效视觉语言模型 FastVLM。

来自主题: AI技术研报
6768 点击    2025-09-03 13:04
告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升

告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升

告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升

大语言模型通过 CoT 已具备强大的数学推理能力,而 Beam Search、DVTS 等测试时扩展(Test-Time Scaling, TTS)方法可通过分配额外计算资源进一步提升准确性。然而,现有方法存在两大关键缺陷:路径同质化(推理路径趋同)和中间结果利用不足(大量高质量推理分支被丢弃)。

来自主题: AI技术研报
6856 点击    2025-09-03 12:03
你的RAG系统有个数学BUG,DeepMind首次证明嵌入向量检索召回能力有限

你的RAG系统有个数学BUG,DeepMind首次证明嵌入向量检索召回能力有限

你的RAG系统有个数学BUG,DeepMind首次证明嵌入向量检索召回能力有限

最近,工业界“RAG已死”甚嚣尘上。过去几年,AI领域的主旋律是“规模定律”(Scaling Law),即更大的模型、更多的数据会带来更好的性能。即便偶然有瑕疵,也认为只是工程上的不足,并非数学上的不可能。

来自主题: AI技术研报
7433 点击    2025-09-03 11:54
冲上热搜!美团大模型,靠「快」火了

冲上热搜!美团大模型,靠「快」火了

冲上热搜!美团大模型,靠「快」火了

国内外开发者:亲测,美团新开源的模型速度超快!

来自主题: AI技术研报
5971 点击    2025-09-03 11:41
第一性原理视角下的MoE推理的经济学分析

第一性原理视角下的MoE推理的经济学分析

第一性原理视角下的MoE推理的经济学分析

随着DeepSeek R1、Kimi K2和DeepSeek V3.1混合专家(MoE)模型的相继发布,它们已成为智能前沿领域大语言模型(LLM)的领先架构。由于其庞大的规模(1万亿参数及以上)和稀疏计算模式(每个token仅激活部分参数而非整个模型),MoE式LLM对推理工作负载提出了重大挑战,显著改变了底层的推理经济学。

来自主题: AI技术研报
5498 点击    2025-09-03 11:22
IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作

IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作

IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作

机器人对可形变物体的操作(Deformable Object Manipulation, DOM),是衡量通用机器人智能水平的关键指标之一。与刚体操作不同,衣物、绳索、食物等物体的形态不固定,其状态空间维度极高,且物理交互过程呈现出复杂的非线性动力学特性,为感知、规划和控制带来了巨大挑战。

来自主题: AI技术研报
5227 点击    2025-09-03 11:07
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改 | 智象未来

图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改 | 智象未来

图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改 | 智象未来

AI图像编辑技术发展迅猛,扩散模型凭借强大的生成能力,成为行业主流。 但这类模型在实际应用中始终面临两大难题:一是“牵一发而动全身”,即便只想修改一个细节,系统也可能影响到整个画面;二是生成速度缓慢,难以满足实时交互的需求。

来自主题: AI技术研报
5136 点击    2025-09-03 10:56
性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA

性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA

性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA

覆盖桌面、移动和 Web,7B 模型超越同类开源选手,32B 模型挑战 GPT-4o 与 Claude 3.7,通义实验室全新 Mobile-Agent-v3 现已开源。

来自主题: AI技术研报
5928 点击    2025-09-03 10:47
他们在1993年就提出了Scaling Law

他们在1993年就提出了Scaling Law

他们在1993年就提出了Scaling Law

原来,Scaling Law在32年前就被提出了! 不是2020年的OpenAI、不是2017年的百度,而是1993年的贝尔实验室。

来自主题: AI技术研报
5531 点击    2025-09-02 16:01
Nano Banana 邪修之王最强科研成果!教你自定义生图比例!

Nano Banana 邪修之王最强科研成果!教你自定义生图比例!

Nano Banana 邪修之王最强科研成果!教你自定义生图比例!

大家好,我是歸藏(guizang),今天教大家解决 Nana Banana 出图最大的问题。 Nano Banana 已经非常强了,但是最近大家普遍用的时候两个问题非常影响可用性

来自主题: AI技术研报
6221 点击    2025-09-02 15:26
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进

7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进

7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进

一群AI玩狼人杀,GPT-5断崖式领先,胜率达到了惊人的96.7%。 OpenAI的总裁格雷格·布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。

来自主题: AI技术研报
5791 点击    2025-09-02 15:22
“FP8 精度”如何赋能国产AI?

“FP8 精度”如何赋能国产AI?

“FP8 精度”如何赋能国产AI?

当前AI大模型(LLM)训练与推理对算力的巨大需求,以及传统计算精度(如FP16/BF16)面临的功耗、内存带宽和计算效率瓶颈。

来自主题: AI技术研报
4856 点击    2025-09-02 12:47
DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

当前,业界顶尖的大模型正竞相挑战“过度思考”的难题,即无论问题简单与否,它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换,还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。

来自主题: AI技术研报
4862 点击    2025-09-02 12:27
苹果最新模型,5年前的iPhone能跑

苹果最新模型,5年前的iPhone能跑

苹果最新模型,5年前的iPhone能跑

智东西9月1日消息,苹果又公布了大模型研发新进展! 8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制,同天在GitHub、Hugging Face上开源了模型的预训练权重和数据生成代码。

来自主题: AI技术研报
5508 点击    2025-09-02 11:04
Nano-Banana 核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的

Nano-Banana 核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的

Nano-Banana 核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的

在图像生成上,Google 其实已经有 Imagen 4 这样的文生图模型,为什么 nano banana 最后还是由 Google 带来的?但这确实不是偶然或者瞎猜的,nano banana 是结合了 Google 多个团队的项目成果。首先就是 Gemini 强大的世界知识与指令遵循能力,其次就是 Google 内部顶尖文生图模型 Imagen,所提供的极致图像美学与自然度追求。

来自主题: AI技术研报
8570 点击    2025-09-02 09:24
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。

来自主题: AI技术研报
4670 点击    2025-09-01 16:49
科研智能体「漫游指南」—助你构建领域专属科研智能体

科研智能体「漫游指南」—助你构建领域专属科研智能体

科研智能体「漫游指南」—助你构建领域专属科研智能体

当前基于大语言模型(LLM)的智能体构建通过推动自主科学研究推动 AI4S 迅猛发展,催生一系列科研智能体的构建与应用。然而人工智能与自然科学研究之间认知论与方法论的偏差,对科研智能体系统的设计、训练以及验证产生着较大阻碍。

来自主题: AI技术研报
5757 点击    2025-09-01 14:48
LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了

LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了

LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了

LLM 似乎可以扮演任何角色。使用提示词,你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过:LLM 是否存在某种身份认同?

来自主题: AI技术研报
4740 点击    2025-09-01 10:10
你的设想被证实了!不微调模型也能微调Agent,Memento霸榜GAIA|UCL最新

你的设想被证实了!不微调模型也能微调Agent,Memento霸榜GAIA|UCL最新

你的设想被证实了!不微调模型也能微调Agent,Memento霸榜GAIA|UCL最新

你或许也有过这样的猜想,如何让AI智能体(Agent)变得更聪明、更能干,同时又不用烧掉堆积如山的算力去反复微调模型?

来自主题: AI技术研报
6416 点击    2025-09-01 09:58
Hinton神预言!斯坦福惊人实锤:00后20%初级IT岗蒸发,AI失业潮来了

Hinton神预言!斯坦福惊人实锤:00后20%初级IT岗蒸发,AI失业潮来了

Hinton神预言!斯坦福惊人实锤:00后20%初级IT岗蒸发,AI失业潮来了

AI正在无声改变美国就业市场,而最先倒下的,竟是年轻人!斯坦福大学最新研究发现:22—25岁新人,正遭遇前所未有的就业危机:毕业即失业,正在成为现实。AI「精准打击」这届美国人年轻人,年轻人还有出路吗?

来自主题: AI技术研报
5781 点击    2025-08-31 12:54
CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

我们也看过各种 AI Coding 领域的评测,发现大多停留在了 「代码生成」与「封闭题目」的考核,却忽视了环境配置、依赖处理、跨仓库资源利用等开发者必经的真实需求 —— 当下众多 Benchmark 仅通过题目,已难以衡量 Code Agent 的实际效果。

来自主题: AI技术研报
6234 点击    2025-08-31 12:45