ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI怎么快速判断一个生成模型好不好? 最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。
搜索
怎么快速判断一个生成模型好不好? 最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。
最近几个月,由谷歌和 Meta 前研究人员建立的欧洲的 AI 初创公司 Mistral AI 有些躁动不安。他们将 Le Chat 再一次升级,引入了一些强大的新功能,使其更强大、更直观,也更有趣,在功能上几乎全方位对标 ChatGPT。
最近,AI霸主英伟达市值突破了4万亿美元,成为全球最重要的股票之一。同样,黄仁勋造就了一个财富奇迹,从不善言辞的工程师,到财富超越巴菲特老爷子。
AI 不该只是工具,而应该成为团队中的「智能中枢」。2023 年 3 月,微软发布 Office Copilot,掀起 AI 办公革命的第一波浪潮。然而,这场变革止步于简单的「智能助手」或「聊天工具栏」的辅助层面,受限于软件割裂、缺乏上下文记忆与协作能力,Copilot 式插件未能从根本上重构办公逻辑。
马斯克xAI整活的AI Waifu,已经让全网沦陷了!这个二次元女友会说、会撩,还具有多种不适合在工作场合展示的功能,亟待广大网友们探索。
这几天不是外卖大战吗。。 每天为了薅羊毛,饭也不做了,三餐全靠“今日红包满减专场”。
今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。
不久前,《纽约客》杂志的一篇文章,系统性地阐述了对AI作为写作工具的忧虑。[1]文章的核心观点是,AI的高效内容生成能力,或许正在悄然催生一场“平庸化的革命”,它不仅改变着我们的写作方式,也可能让我们在语言表达和原创思维上,趋于某种程度的同质化。
你有没有发现,即使是最先进的AI系统,在面对复杂问题时仍然会给出令人沮丧的错误答案?问题往往不在于大语言模型本身,而在于它们根本找不到正确的信息。
当前最强大的视觉语言模型(VLMs)虽然能“看图识物”,但在理解电影方面还不够“聪明”。