ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Trump当选概率有多大?UC伯克利CAIS联手打造「AI预言家」,吊打人类分析师
6987点击    2024-09-11 17:33

LLM的神奇职能,又多了一个。


用更形象的话说,就是中国的「算命签」、欧洲的「水晶球」,可以用「超人」的能力预测未来。


去年12月,Nature就刊登了一篇研究,可以用LLM预测一个人生活中即将发生的事件,就像预测句子中的next token一样。



实验结果表明,这个模型甚至能预测一个人未来4年内死亡的可能性,准确率高达78.8%。


最近,AI安全中心总监Dan Hendrycks联合加州大学伯克利分校的研究人员,开发了一个更强大的系统FiveThirtyNine,预测更宏观的社会事件,比如「Trump能否赢得2024年大选」。



这个AI预测机器人基于GPT-4o构建,用户输入想查询的事件,FiveThirtyNine就能预测出发生的概率,就像天气预报中给出的下雨概率一样。


那么预测的准确度和可信度如何?


知名作家、民意调查师Nate Silver最近在一档节目上表示,AI不会很快取代人类预测分析师的能力。想看到超人的预测能力,起码要等15年。



Nate Silver最新预测:Trump有64%的获胜几率


但这个项目的作者表示不服,他们表示,539的表现好过经验丰富的人类预报员单打独斗,大致和一群预报员合作的表现相当,甚至更好。


因此,分析预测市场很快就能通过AI实现自动化!


从项目Demo中也能发现,539能够预测的事件范围也很广泛,比如美国大选是政坛事件,其他领域包括生物安全、AI技术、环境健康、网络安全等也都能预测。



原文地址:https://www.safe.ai/blog/forecasting


Demo地址:https://forecast.safe.ai/


除了放出博客文章和Demo,研发团队还计划出一篇详细的技术报告,虽然还没完稿,但坑位已经占上了,感兴趣的朋友可以期待下。



原文地址:https://drive.google.com/file/d/1Tc_xY1NM-US4mZ4OpzxrpTudyo1W4KsE/view


为什么给这个机器人取名叫FiveThirtyNine?


原作者特地发推解释,原来是想致敬著名的民意预测员Nate Silver,但又要表示AI的能力比他强,因此本来计划取名为Nate Gold。


但没得到本人同意,只好借用他twitter名的后缀538,再+1表示「迭代」一版,就得到了539。


FiveThirtyNine工作原理


这里,简单总结下FiveThirtyNine的工作原理。


举个例子,如果向FiveThirtyNine询问「Trump会赢得2024年美国总统大选吗?」。


接收了这一Prompt的FiveThirtyNine,就如同一个AI预言家一样,会借助搜索引擎检索相关的新闻和文章,整合信息并做出预测。



基于GPT-4o的FiveThirtyNine的预测示例


Prompt的内容也是很重要的,可能是为了复现方便,作者给出了实验中使用的prompt模板。



在充足的先验知识的基础上,FiveThirtyNine首先会依据事实总结归纳。


对一件事的Yes/No两方面,539会分别给出支持或反对的理由,再依据重要性分配相应的权重,可解释性拉满了。



比如,预测Trump当选的论据包括:票仓强劲、支持率经常被低估、刚获得的法律豁免权、他主张的经济复苏措施等等。



反面的论据也有5个,同样现实且有力,包括Harris民意调查领先、筹款优势和关键人群的支持,以及Trump本人的极化倾向和法律挑战。


总结这些论据后,FiveThirtyNine还会「酌情处理」消极新闻、抓马事件和耸人听闻的偏见,整合多重因素,给出一个初步的概率。



最后,它还需要对这个概率值进行理性分析,结合推理进一步优化,并给出校准后的概率——在本例中为52%。



AI预言家优于市场预测


为了测试AI预言家的表现,作者们借助Metaculus平台的问题对其进行了评估。


为了比较的公正性,AI预言家与人工预言家使用相同的信息。


值得注意的是,GPT-4o的数据仅囊括2023年10月之前的,因此研究者将新闻和文章都限定在该日期前,要求539和人类分别计算Metaculus中177个事件发生的概率。


针对这177个事件,Metaculus自身模型的预测准确率为87.0%,而FiveThirtyNine将其提升至87.7%±1.4。


相对于市场预测,AI预言家具有多种其无法比拟的优势。如,它能在几秒内快速生成预测,速度比当前市场预测高了几个数量级。


不仅速度更快,还不需要额外的奖励机制去优化预测,在精度相当的情况下,显然AI预言家更具性价比。


局限性


虽然作者放话表示,AI预言家已经优于人类预测员,但这个机器人依旧存在不少工程和性能上的局限性。


比如,539依旧会对无效查询做出回应,因为作者还没给它加上拒绝功能。


实时更新知识库这方面,也有显著的缺陷,毕竟它还没能接上推特的API。


5G冲浪的网友可以马上知道推特上的热门事件,但如果涉及到预训练所用的知识库盲区,539就一无所知。


比如,刚刚完成预训练的539还不知道Joe Biden已经退选,如果不重新过一遍知识库,依旧会傻傻地预测Biden当选的概率。



尤其是对于那些迫在眉睫、即将见分晓的事件,这种迟钝的反应是完全比不上人类的。


更重要的是,当前的「AI预言家」没有经过微调,还未达到最优精度,仅仅是依据工程化的Prompt检索并撰写总结报告。



可通过单击forecast.safe.ai中的齿轮图标找到它的prompt


此外,「自动化偏见」(automation bias)也是一个重要的问题,推特评论区也有网友问到。



「自动化偏见」是社会心理学领域的发现,即人类倾向于过度依赖自动化系统的建议,而忽略而忽略非自动化方式产生的矛盾信息,即使这些信息是正确的。


作者表示,这个问题或许可以通过优化界面来改进或避免。


尽管机器人在广度、速度和准确性方面通常表现优异,但在某些特定方面,它依旧比不上人类。


比如在非常依赖专业知识的金融领域,539对市场的预测能力还没有被验证。


它的预测还可能忽视尾部风险,造成「自证预言」。如果改进这一缺陷,AI预言家的预测精度可能会得到极大的提升。


研究者称,最初将其称为超人,并不是指它在各个方面都无懈可击,只是想表达AI预言家的预测能力并不比人类逊色。


就像何恺明大神也会宣称PReLU网络在ImageNet上有「超人性能」一样,虽然也会犯人类不可能犯的错误,但不耽误AI在某些方面匹配甚至超越人类表现。



「AI预言家」能干什么


如果说,以维基百科为代表的认知技术,推动了人类参与知情讨论、维持现实共识,以及构建共同的世界观,那么未来AI的用途,可能会走得更远。


作为中立的智能第三方,「AI预言家」或许可以改进决策和公共话语,有助于缓和极端、立场两极分化的事件。


完善聊天机器人功能


将AI预测功能集成到AI聊天机器人或个人AI助手中,可以辅助决策、规避风险。


例如,可以为政策制定者们提供值得信赖、公正的概率评估,还可以帮助量化专家规避风险。



补充新闻报道


AI预言家还可用来补充新闻报道,比如帮助预测加州AI安全法案SB 1047成功签署的可能性。



美国著名天文学家Carl Sagan曾说过,「如果单纯积累力量而不增长智慧,人类必定会走向自我毁灭的道路」。


不可否认,未来AI技术将不断变强,而其所具备的预测能力也有望为我们提供预警式和启发式的建议。


网友评论


「AI预言家」这个项目可以说是看点十足,很能吸引眼球,但推特上的网友大多持负面评论。


有人认为这只是给GPT-4o套了个壳、做了点提示工程,本质上是一个「新闻阅读器」的应用。



还有人指责作者「路走歪了」,除了炒作,这类项目完全看不到价值或实际功用。



此外,也有技术方面的质疑。


因为作者提到,在评估时允许机器人接入互联网,在有日期截断的前提下,防止它得知事件结果。


但「日期截断」这个功能完全不可靠,反例一抓一大把,因此评估结果也是靠不住的。



其中的技术含量究竟有多少?所谓「超越人类表现」的评估结果到底能告诉我们什么?


看来只有等技术报告发布后才能得知了。


文章来源于“新智元”,作者“新智元


关键词: AI , AI预言 , AI预言家 , GPT-4o
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

3
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0