AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航(VLN)新框架——UNeMo。让机器人听懂指令,精准导航再升级!

来自主题: AI技术研报
6123 点击    2025-12-10 14:34
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。该模型旨在在一个统一的大模型中,将「看见世界(Perception)」「理解世界(World–Awareness)」和「驱动车辆行动(Action)」真正打通,形成一条从感知到决策的完整链路。

来自主题: AI技术研报
6031 点击    2025-12-10 14:33
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

12月伊始,可灵AI接连放出大招。全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能……5天内5次“上新”,直接让生成式AI领域的竞争“卷”出新高度。

来自主题: AI资讯
6894 点击    2025-12-10 14:32
2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行

2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行

2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行

近日,北京大学团队提出一个直接基于已有预训练模型进行极低比特量化的通用框架——Fairy2i。该框架通过广泛线性表示将实数模型无损转换为复数形式,再结合相位感知量化与递归残差量化,实现了在仅2比特的情况下,性能接近全精度模型的突破性进展。

来自主题: AI技术研报
6949 点击    2025-12-10 14:28
Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

仅凭一段随手拍摄的单目视频,是否能够让镜头在空间中自由飞行,让光线随意变换,让原本固定的真实场景在全新的视角与照明条件下被再次「拍摄」?这一过去被视作科幻设想的问题,如今迎来了明确答案。

来自主题: AI技术研报
8984 点击    2025-12-10 10:21
让AI像巴甫洛夫的狗一样学习?北航团队提出智能基础模型,跨越生物与AI鸿沟

让AI像巴甫洛夫的狗一样学习?北航团队提出智能基础模型,跨越生物与AI鸿沟

让AI像巴甫洛夫的狗一样学习?北航团队提出智能基础模型,跨越生物与AI鸿沟

假如你正在教一只小狗学习新技能。当你摇响铃铛然后给它食物,重复几次之后,只要一摇铃铛,即使没有食物,小狗也会留着口水跑过来。这就是著名的巴甫洛夫实验,它展现了生物是如何学习的。

来自主题: AI技术研报
5567 点击    2025-12-10 09:59
开源在压榨GPU性价比!Linux 基金会掌门人揭露AI时代新技术栈:PARK!LLM 已经开始泡沫化,AI其实还没真正改变世界

开源在压榨GPU性价比!Linux 基金会掌门人揭露AI时代新技术栈:PARK!LLM 已经开始泡沫化,AI其实还没真正改变世界

开源在压榨GPU性价比!Linux 基金会掌门人揭露AI时代新技术栈:PARK!LLM 已经开始泡沫化,AI其实还没真正改变世界

在本周一举行的 Open Source Summit Japan 主题演讲中,Linux 基金会执行董事 Jim Zemlin 抛出了一个耐人寻味的判断: “AI 可能还谈不上全面泡沫化,但大模型或许已经开始泡沫化了。”

来自主题: AI资讯
9953 点击    2025-12-09 15:08
Jina-VLM:可在笔记本上跑的多语言视觉小模型

Jina-VLM:可在笔记本上跑的多语言视觉小模型

Jina-VLM:可在笔记本上跑的多语言视觉小模型

今天我们正式发布 Jina-VLM,这是一款 2.4B 参数量的视觉语言模型(VLM),在同等规模下达到了多语言视觉问答(Multilingual VQA)任务上的 SOTA 基准。Jina-VLM 对硬件需求较低,可在普通消费级显卡或 Macbook 上流畅运行。

来自主题: AI资讯
7645 点击    2025-12-09 14:48