AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

当前,视觉语言模型(VLMs)的能力边界不断被突破,但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角:如果一项能力对人类而言是 “无需思考” 的本能,但对 AI 却是巨大挑战,它是否才是 VLMs 亟待突破的核心瓶颈?

来自主题: AI技术研报
6041 点击    2025-03-15 15:05
何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了?

何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了?

何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了?

Transformer架构迎来历史性突破!刚刚,何恺明LeCun、清华姚班刘壮联手,用9行代码砍掉了Transformer「标配」归一化层,创造了性能不减反增的奇迹。

来自主题: AI技术研报
5979 点击    2025-03-15 14:11
CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

在 Sora 引爆世界模型技术革命的当下,3D 场景作为物理世界的数字基座,正成为构建动态可交互 AI 系统的关键基础设施。当前,单张图像生成三维资产的技术突破,已为三维内容生产提供了 "从想象到三维" 的原子能力。

来自主题: AI技术研报
7132 点击    2025-03-14 15:40
MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。

来自主题: AI技术研报
7189 点击    2025-03-14 15:32
速递|Moonvalley 发布了一款视频生成器,声称其基于授权内容训练

速递|Moonvalley 发布了一款视频生成器,声称其基于授权内容训练

速递|Moonvalley 发布了一款视频生成器,声称其基于授权内容训练

洛杉矶初创公司 Moonvalley 推出了一款 AI 视频生成模型,该公司声称这是少数基于公开许可(非版权)数据训练的模型之一。

来自主题: AI资讯
6081 点击    2025-03-13 15:24
3700次预训练总结超参规律,开源海量实验,告别盲猜

3700次预训练总结超参规律,开源海量实验,告别盲猜

3700次预训练总结超参规律,开源海量实验,告别盲猜

近年来,大语言模型 LLMs 在多种任务上的卓越表现已得到广泛认可。然而,要实现其高效部署,精细的超参数优化至关重要。为了探究最佳超参数的规律,我们开展了大规模的实证研究,通过在不同配置上进行网格搜索,我们揭示了一套通用的最优超参数缩放定律(Optimal Hyperparameter Scaling Law)。

来自主题: AI技术研报
8384 点击    2025-03-13 15:15
阿里妈妈搜索广告2024大模型思考与实践

阿里妈妈搜索广告2024大模型思考与实践

阿里妈妈搜索广告2024大模型思考与实践

随着大模型时代的到来,搜推广模型是否具备新的进化空间?能否像深度学习时期那样迸发出旺盛的迭代生命力?带着这样的期待,阿里妈妈搜索广告在过去两年的持续探索中,逐步厘清了一些关键问题,成功落地了多个优化方向。

来自主题: AI技术研报
8800 点击    2025-03-13 15:14