你正在做的大模型评测,可能有一半都是无用功 | 上海AI Lab&上交&浙大出品
你正在做的大模型评测,可能有一半都是无用功 | 上海AI Lab&上交&浙大出品评估多模态AI模型的那些复杂测试,可能有一半都是“重复劳动”!
评估多模态AI模型的那些复杂测试,可能有一半都是“重复劳动”!
近年来,深度学习技术在自动驾驶、计算机视觉、自然语言处理和强化学习等领域取得了突破性进展。然而,在现实场景中,传统单目标优化范式在应对多任务协同优化、资源约束以及安全性 - 公平性权衡等复杂需求时,逐渐暴露出其方法论的局限性。
古人在线骂人成流量密码。
火热的智能体离杀手级爆款有多远?
美国大学生已经提前开始为AI打工了
近段时间,著名 AI 科学家 Andrej Karpathy 提出的氛围编程(vibe coding)是 AI 领域的一大热门话题。简单来说,氛围编程就是鼓励开发者忘掉代码,进入开发的氛围之中。更简单地讲,就是向 LLM 提出需求,然后「全部接受」即可。
「AI 届春晚」过去以来一直是 GTC 的外号之一,但在 GTC 2025 的开幕主题演讲中,这个梗被英伟达创始人、爱穿皮衣的老黄「偷了」。「我觉得 GTC 已经变成了 AI 界的超级碗」
多模态大模型虽然在视觉理解方面表现出色,但在需要深度数学推理的任务上往往力不从心,尤其是对于参数量较小的模型来说更是如此。
什么?H20都变抢手货,涨价10万那种?!
通过收集六名志愿者一周的多模态生活数据,研究人员构建了300小时的第一视角数据集EgoLife,旨在开发一款基于智能眼镜的AI生活助手。项目提出了EgoButler系统,包含EgoGPT和EgoRAG两个模块,分别用于视频理解与长时记忆问答,助力AI深入理解日常生活并提供个性化帮助。