
你的怀疑是对的!LLM作为Judge,既无效又不可靠,终于有论文向LLJ开炮了
你的怀疑是对的!LLM作为Judge,既无效又不可靠,终于有论文向LLJ开炮了让LMM作为Judge,从对模型的性能评估到数据标注再到模型的训练和对齐流程,让AI来评判AI,这种模式几乎已经是当前学术界和工业界的常态。
让LMM作为Judge,从对模型的性能评估到数据标注再到模型的训练和对齐流程,让AI来评判AI,这种模式几乎已经是当前学术界和工业界的常态。
这是 Claude(Anthropic 的 AI 助手)今天更新了用户条款和隐私政策: 允许 Claude 使用你的聊天内容和编程会话,用于训练和改进 AI 模型。 默认是“同意”,可以手动去设置关闭。而且是要求用户在 2025 年 9 月 28 日前作出选择。
2025 年 8 月 29 日,由清华大学计算机系崔鹏教授团队联合稳准智能共同研发的结构化数据通用大模型「极数」(LimiX)正式宣布开源。
针对OpenAI最新开源的GPT-OSS,这一篇面向零基础小白用户的手把手式的详细训练教程或许能帮助你完成你的第一个GPT训练项目。
近日,上海交大和上海人工智能实验室的研究发现,AI 的风险正从个体失控转向群体性的恶意共谋(Collusion)——即多个智能体秘密协同以达成有害目标。Agent 不仅可以像人类团队一样协作,甚至在某些情况下,还会展现出比人类更高效、更隐蔽的「团伙作案」能力。
不卷参数的专业模型,会不会被通用大模型取代? 在医疗领域,这个疑问正在被打破。
强化学习核心是什么?Karpathy一语道破——环境。全新开源Environments Hub横空出世,为强化学习训练带去革命性突破。
OpenAI的重组悬而未决,核心在控制权与确定性:多云是否松口、微软能否获取训练细节、以及最关键的AGI条款的去留。这三件事,决定了微软最终30%–35%的持股价值,也决定了软银100亿美元的到账节奏与估值锚点。
在大模型时代,机器学习资产(如模型、数据和许可证)数量激增,但大多缺乏规范管理,严重阻碍了AI应用效率。研究人员将在VLDB 2025系统介绍如何整理、发现和利用这些资产,使其更易查找、复用且符合规范,从而提升开发效率与协作质量。
“Agent元年”进程过半,Agent虽已从处理简单任务转向复杂交付,却仍卡在“信息断层”的关键瓶颈—— 受限于训练数据截止日期,难以及时获取实时动态信息,企业级场景落地始终差临门一脚。