AI资讯新闻榜单内容搜索-A

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: A
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。

来自主题: AI技术研报
10846 点击    2025-05-27 16:53
百度心响上线iOS版,多智能体协作应用终于卷对地方了

百度心响上线iOS版,多智能体协作应用终于卷对地方了

百度心响上线iOS版,多智能体协作应用终于卷对地方了

今年的4月26日,我们测评了百度新发布的多智能体协作应用心响APP。当时只上线了安卓版,很多网友在线求苹果版链接。

来自主题: AI资讯
6144 点击    2025-05-27 16:48
Cognition,10块奥数金牌撑起的AI编程奇迹,这家华人公司是否能笑到最后?

Cognition,10块奥数金牌撑起的AI编程奇迹,这家华人公司是否能笑到最后?

Cognition,10块奥数金牌撑起的AI编程奇迹,这家华人公司是否能笑到最后?

自 2024 年 3 月 Devin 首次亮相以来,AI 编程世界的叙事就被彻底改写。这款由 Cognition 打造的“全自动 AI 软件工程师”,在短短数月内登上技术话题的C位:一段其独立修复开源 Bug 的演示视频在 X 平台播放量突破 3000 万,成为AI圈罕见的“破圈时刻”。

来自主题: AI资讯
10507 点击    2025-05-27 16:40
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。

来自主题: AI技术研报
10146 点击    2025-05-27 16:13
印度国家级大模型上线两天仅 300 余次下载,投资人直呼“尴尬”:韩国大学生模型都有20万!

印度国家级大模型上线两天仅 300 余次下载,投资人直呼“尴尬”:韩国大学生模型都有20万!

印度国家级大模型上线两天仅 300 余次下载,投资人直呼“尴尬”:韩国大学生模型都有20万!

作为首批入选印度“IndiaAI Mission”国家级项目、承担构建印度主权基础大模型任务的公司之一,Sarvam AI 近日发布了名为 Sarvam-M 的模型。这是一个基于 Mistral Small 构建的 240 亿参数、权重开放的混合语言模型。

来自主题: AI资讯
11460 点击    2025-05-27 14:44
红杉中国xbench全球首发,AI智能体真实战力揭榜!

红杉中国xbench全球首发,AI智能体真实战力揭榜!

红杉中国xbench全球首发,AI智能体真实战力揭榜!

刚刚,全新AI基准测试工具xbench诞生,通过双轨评估体系和长青评估机制,追踪模型能力与实际场景价值。

来自主题: AI技术研报
11692 点击    2025-05-27 14:04