AI资讯新闻榜单内容搜索-训练

！离AGI更近了！！0.31元运行谷歌的AlphaEvolve和UBC的DGM「达尔文-哥德尔机」？

最近AI圈子里有两个特别有意思的项目，一个是谷歌DeepMind的AlphaEvolve，另一个是UBC大学的Darwin Gödel Machine（简称DGM）。

来自主题: AI技术研报

5944 点击 2025-06-04 09:52

视觉感知驱动的多模态推理，阿里通义提出VRAG，定义下一代检索增强生成

在数字化时代，视觉信息在知识传递和决策支持中的重要性日益凸显。然而，传统的检索增强型生成（RAG）方法在处理视觉丰富信息时面临着诸多挑战。一方面，传统的基于文本的方法无法处理视觉相关数据；另一方面，现有的视觉 RAG 方法受限于定义的固定流程，难以有效激活模型的推理能力。

来自主题: AI技术研报

7006 点击 2025-06-04 09:28

真实评估！北理发布全球首个「全场景教育」基准，支持4000+情境

发展教育大模型需要新的数据和评估体系！北京理工大学高扬老师团队推出EduBench，是首个专为教育场景打造的综合评估基准，涵盖9大教育场景、12个多视角评估维度、超4000个教育情境。通过多维度评估指标体系和人工标注一致性计算，确保评估可靠性，助力教育大模型发展，推动教育智能化。

来自主题: AI技术研报

8063 点击 2025-06-03 16:47

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

首个专为ALLMs（音频大语言模型）设计的多维度可信度评估基准来了。

来自主题: AI技术研报

8073 点击 2025-06-03 15:11

ACL2025 | 传统符号语言传递知识太低效？探索LLM高效参数迁移可行性

人类的思维是非透明的，没有继承的记忆，因此需要通过语言交流的环境来学习。人类的知识传递长期依赖符号语言：从文字、数学公式到编程代码，我们通过符号系统将知识编码、解码。但这种方式存在天然瓶颈，比如信息冗余、效率低下等。

来自主题: AI技术研报

8007 点击 2025-06-03 14:57

姚顺雨提到的「AI下半场」，产品评估仍被误解

前段时间，OpenAI 研究员姚顺雨发表了一篇主题为「AI 下半场」的博客。其中提到，「接下来，AI 的重点将从解决问题转向定义问题。在这个新时代，评估的重要性将超过训练。我们需要重新思考如何训练 AI 以及如何衡量进展，这可能需要更接近产品经理的思维方式。」（参见《清华学霸、OpenAI 姚顺雨：AI 下半场开战，评估将比训练重要》）

来自主题: AI资讯

5883 点击 2025-06-03 13:40