
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。
Something New :为了更好地沉淀 AI 时代的投资 insights,我们上线了 「AGI 投资手册」知识库(点击文末阅读原文链接查看),欢迎留下建议与 ideas,共建 AGI 时代的投资指南。也可以在评论区留言你认为最值得关注的 AI 股票,我们会为留言的朋友送出最新「 AGI 投资报告」 PDF。
AI搜索引擎公司Perplexity新融资消息曝光!
Perplexity CEO Aravind Srinivas 近日在接受 TheVerge 采访时表示,「Perplexity 最终的目标是构建像 Windows、Mac、Android 或 iOS 这样的操作系统,操作系统才是最终极的战场。」
周二听证会上,美国司法部反垄断诉讼剑指谷歌,Chrome或被强制剥离!ChatGPT负责人放话:我们有兴趣收购。坐拥数十亿用户Chrome一旦易主,搜索领域将彻底洗牌。
今天凌晨4点,路透社消息,OpenAI一位高管在谷歌垄断案庭审中作证,将收购其浏览器Chrome。目前,谷歌在美国正遭遇反垄断审判,如果上诉失败不仅Chrome会被拆分,其数字广告业务也会被剥离,会对谷歌进行大重组。
本文对DeepMind两位泰斗级科学家David Silver和Richard Sutton的重磅论文《Welcome to the Era of Experience》进行了深度解读,我将其视为AI发展方向的一份战略瞭望图。
几天前,AI 驱动的演示工具 Tome 宣布,将在四月底前关闭 Tome Slides 功能,并转型至销售领域(「搞定交易,而非幻灯片」:面向销售的 AI 助手)。
字节有一个很实用但不怎么火的项目,叫 Midscene.js,Chrome 商店上的安装数仅有 1 万,它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到,但我发现它特别适合用来写爬虫……
AI智能体,确实到了爆发时刻。