AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

随着视频内容的重要性日益提升,如何处理理解长视频成为多模态大模型面临的关键挑战。长视频理解能力,对于智慧安防、智能体的长期记忆以及多模态深度思考能力有着重要价值。

来自主题: AI技术研报
6397 点击    2025-04-05 14:07
浙大校友重磅革新Transformer!多token注意力让LLM开挂,错误率归0

浙大校友重磅革新Transformer!多token注意力让LLM开挂,错误率归0

浙大校友重磅革新Transformer!多token注意力让LLM开挂,错误率归0

简单的任务,传统的Transformer却错误率极高。Meta FAIR团队重磅推出多token注意力机制(MTA),精准捕捉复杂信息,带来模型性能飞升!

来自主题: AI技术研报
5795 点击    2025-04-04 14:14
AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量

AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量

AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量

通过完全启用并发多块执行,支持任意专家数量(MAX_EXPERT_NUMBER==256),并积极利用共享内存(5kB LDS)和寄存器(52 VGPRs,48 SGPRs),MoE Align & Sort逻辑被精心设计,实现了显著的性能提升:A100提升3倍,H200提升3倍,MI100提升10倍,MI300X/MI300A提升7倍...

来自主题: AI技术研报
2785 点击    2025-04-03 16:14
智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作

智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作

智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作

随着人工智能和大语言模型(LLMs)的不断突破,如何将其优势赋能于现实世界中可实际部署的高效工具,成为了业界关注的焦点。

来自主题: AI技术研报
2773 点击    2025-04-03 15:19
让AI替码农卷复杂任务,贾佳亚团队提出MoTCoder,准确率刷新SOTA

让AI替码农卷复杂任务,贾佳亚团队提出MoTCoder,准确率刷新SOTA

让AI替码农卷复杂任务,贾佳亚团队提出MoTCoder,准确率刷新SOTA

大模型写代码早就是基操了,但让它写算法竞赛题或企业级系统代码,就像让只会煮泡面的人去做满汉全席 —— 生成的代码要么是 “铁板一块” 毫无章法,要么是 “一锅乱炖” 难以维护。

来自主题: AI技术研报
8140 点击    2025-04-03 15:12