AI资讯新闻榜单内容搜索-3

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 3
首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报
6479 点击    2025-07-05 13:02
差点被Ilya摁掉,胎死腹中!ChatGPT爆红内幕首次公开

差点被Ilya摁掉,胎死腹中!ChatGPT爆红内幕首次公开

差点被Ilya摁掉,胎死腹中!ChatGPT爆红内幕首次公开

从「与GPT-3.5畅聊」到「ChatGPT」,OpenAI团队如何在混乱中拍板上线、又怎样被用户「点赞」调教成「赛博舔狗」?从产品发布、命名内幕、团队文化到AI时代核心竞争力,深度访谈揭开幕后全过程!

来自主题: AI资讯
5408 点击    2025-07-05 12:40
刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

刚刚,Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称,Grok 4 在 HLE(Humanities Last Exam,人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%;在 GPQA 上的得分是 87-88%;而Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

来自主题: AI资讯
7958 点击    2025-07-05 11:38
不学美国砸钱烧AI,欧洲科技巨头另辟蹊径

不学美国砸钱烧AI,欧洲科技巨头另辟蹊径

不学美国砸钱烧AI,欧洲科技巨头另辟蹊径

欧洲科技巨头的CEO最新表示,欧洲在人工智能领域展开竞争时并不需要大量建立数据中心,这一说法与上月黄仁勋访欧时提出的说法相悖。当地时间周四(7月3日),德国思爱普公司(SAP)首席执行官柯睿安(Christian Klein)在接受采访时说道:“我们真的需要建五个数据中心再把高性能芯片放进去吗?”

来自主题: AI资讯
7190 点击    2025-07-05 11:33
“美国国运股”Palantir,怎么靠AI Agent大涨3000亿美元?

“美国国运股”Palantir,怎么靠AI Agent大涨3000亿美元?

“美国国运股”Palantir,怎么靠AI Agent大涨3000亿美元?

当全球目光都聚焦在OpenAI、Anthropic、谷歌、Meta等明星AI公司时,真正靠大模型落地大规模盈利的,却是一家相对不太知名的公司——Palantir。

来自主题: AI资讯
7884 点击    2025-07-04 12:43
图灵奖大佬向97年小孩哥汇报?小扎1亿年薪买新贵,老将痛诉熬夜捡GPU!

图灵奖大佬向97年小孩哥汇报?小扎1亿年薪买新贵,老将痛诉熬夜捡GPU!

图灵奖大佬向97年小孩哥汇报?小扎1亿年薪买新贵,老将痛诉熬夜捡GPU!

图灵奖大佬向97年小孩哥汇报,这是什么魔幻剧情?小扎砸143亿请来的「数据标注少年」,已荣升Meta首席AI官。一边是小扎上亿美元年薪offer引进新员工,另一边是Meta老将GPU告急不得不熬夜借卡差点头秃。网友们痛呼:太为Meta FAIR的员工难过了……

来自主题: AI资讯
5555 点击    2025-07-04 12:37
AI大神吴恩达:“别学编程”?这是AI时代最糟糕的职业建议之一

AI大神吴恩达:“别学编程”?这是AI时代最糟糕的职业建议之一

AI大神吴恩达:“别学编程”?这是AI时代最糟糕的职业建议之一

7月3日消息,在近期AMD Advancing AI 2025 大会上,吴恩达与苏姿丰就 AI 的普及、开放生态和硬件基础设施展开交流。两人强调,多层技术栈、快速原型和AI助编工具能大幅提升开发效率。

来自主题: AI资讯
8131 点击    2025-07-04 11:39
本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

AI非上云不可、非集群不能?万字实测告诉你,32B卡不卡?70B是不是智商税?要几张卡才能撑住业务? 全网最全指南教你如何用最合适的配置,跑出最强性能。

来自主题: AI技术研报
5962 点击    2025-07-03 18:53