ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
阿里数赛首次向AI开放!知乎网友:给AI捏了把汗,该防止人类替考
8615点击    2024-03-15 11:50
一年一度的阿里全球数学竞赛又开始了。本届最大的亮点,首次向硅基AI开放,最高可摘得1万美金大奖。不用等了,带着你的AI来挑战吧。


首个专为AI敞开大门的数学竞赛来了!


今天,2024阿里巴巴全球数学竞赛开启报名,首次向AI开放。要求很简单,就是用AI完成预选赛的题目,第一名奖金高达10000美元。



消息一出,没想到,向来不爱数学的网友反响出奇的热烈,疯狂@各路大模型参赛。



相关话题还冲上知乎当天的热榜。有网友表示,「作为曾经的数学爱好者,如今的AI爱好者,表示双厨狂喜。」



当然,也有认真学习的网友,对AI参赛很兴趣,「现在 AI 解决一些常规的计算题都有可能出错,不知道如何解答竞赛的证明题?」


也有参加过往届竞赛的网友直言,「AI估计没戏,阿赛都是出的没有直接解答和解题思路参考的新题,不是靠储存和搜索就可以的。」


不过也有网友发现比赛真正的槽点,23333



都说「万物皆可AI」,用AI来做数学题,是否很简单呢?激动的小编决定一试,就用当前「地表最强」的大模型GPT-4和Claude 3 Opus练练手。


与地表最强AI组队考试是一种怎样的感觉?


从过往三年阿里数赛的真题,小编选出了一道看着「人人易懂」的题目,让两个大模型去完成。


这是一个非常有趣的「抽鬼牌」游戏。A有n张牌(两两不同),B手中有n+1张牌(n张牌与A相同),只有一张是「鬼牌」。



游戏规则也很简单,A和B互相从对方手中抽牌,A先开始,若抽到牌与手中某张牌一样,将其丢弃。最后手里有「鬼牌」的人,就是loser。


假设每次从对方手中抽到任意一张牌概率相同,那么,n等于多少的时候,A的胜率最高?



GPT-4定义一个递归函数来计算A的胜率。


具体函数代码过程如下:


A在第一次抽牌时,抽到「鬼牌」的概率:1 / (n + 1)。


A没有抽到「鬼牌」的概率:(n / (n + 1)) * (1 - A的胜率(n - 1))。


然后,A获胜的总概率等于上面两个加起来:1 / (n + 1)+ (n / (n + 1)) * (1 - A的胜率(n - 1))。


最终将n = {31, 32, 999, 1000},分别计算,最终ChatGPT得出了n=31时,A的胜率最大。


def A_win_probability(n):
# Base case: if only the ghost card remains, A loses, so the probability is 0.
if n == 0:
return 0

# Probability of A drawing the ghost card on the first draw.
prob_A_draws_ghost = 1 / (n + 1)

# Probability of A not drawing the ghost card and then considering the outcomes
# of the remaining game, which behaves like a game starting with one less card
# (since A will draw a matching card and both will be discarded).
prob_A_not_draw_ghost_and_wins = (n / (n + 1)) * (1 - A_win_probability(n - 1))

# Total probability of A winning.
return prob_A_draws_ghost + prob_A_not_draw_ghost_and_wins

# Calculating A's win probability for the given n values
n_values = [31, 32, 999, 1000]
win_probabilities = {n: A_win_probability(n) for n in n_values}

win_probabilities


再来看看号称干翻「GPT4」的Claude 3 Opus表现如何?


在具体的分析过程中,Claude 3 Opus将游戏最终结果只归因于「A和B的抽牌顺序」——根据题目已给条件,是让A先抽的牌。然后,它又将A和B手中的牌加到一起,共有2n+1张牌,然后得出谁抽到最后一张牌,谁就输。Claude 3 Opus给出了A获胜的条件,就是B抽到最后一张牌,简言之,一共进行「奇数次」抽牌,A就获胜。


最终,模型将获胜率转为了「鬼牌」的奇偶率,得出了当n为偶数时,A获胜率大于1/2。因此,根据选项,得出了n=32,胜率最大。


官方的正确答案是B,n=32。


GPT-4显然挑战失败了,而Claude 3 Opus虽然答对了,但严格来说,算「懵对」。逻辑却出现了前后不吻合的情况。这种情况如果算过程分,也只能拿零分。


经过实测,任何一个人都可以理解的题目,但对于AI来说,却不一定。


大模型需要将题目转化为形式化的语言,也就是计算机可以理解的语言,然后根据已有的知识进行推理计算。


GPT-4与Claude 3 Opus在回答复杂数学问题的状况,跟下图一模一样:



学好数学,对AI同样重要


在数学解题能力上,即便是地表最强AI,也暴露出不少缺点。


直接上结论吧,AI今年应该还赶不上人类选手的水平。


但是未来差距无疑不断缩短,甚至于超越。如果这一旦发生,会倒逼提升竞赛难度、也会让人类选手迸发更大潜能。


写到这里,开始有点理解,阿里为什么要举办AI数学比赛了。


数学之于AI,AI之于数学,是相互相依的关系。在追上人类前,AI也许可以成为学生和数学家的助手,发挥搜索、记忆以及计算速度上的优势,帮助人类去解题。而另一方面,没有数学理论的支持,AI也很难行稳至远。


就连菲尔兹奖得主陶哲轩本人,第一时间将ChatGPT加入工作流,并预言:


2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。

在最近接受Quanta Magazine的采访中,他还着重强调了,「AI可以让数学家大规模合作,让更多业余爱好者参与进来,为数学做出有意义的贡献」。



数赛组委会成员、达摩院决策智能实验室的负责人印卧涛表示,「引入AI给大赛带来一个新视角,让大家可以一同见证AI在逻辑思维和解题方面的能力」。


花式整活儿背后,推动数学与AI的发展


原来,这也不是阿赛第一次整活儿。


今年已是第六届的阿里全球数学竞赛,每年都吸引了全球各行各业的选手参与,比如退休教授、律师、船员、编剧、快递员等等。


2023年阿里数赛中,一位95后快递小哥就成为了那个「民间高手」。


白天忙着送快递,晚上还要留出时间专研数学。他仅用了两周的时间,证明了欧拉常数有关的13个公式。



仔细一想,今年阿里首设AI数学挑战赛,对公众而言也是一场很好的数学科普。


原来「不仅我觉得数学难,AI也觉得难」,还是踏踏实实的学习吧(狗头


组委会方面表示,数学本身就是AI的基础,后续还会去解读一些优秀AI背后的数学原理,向公众展示数学对于AI的重要性和应用前景,希望能够提升大众,特别是青少年对基础学科的兴趣。


此外,可预想的是,比赛定会吸引一大波码农前来参赛,说不定数学题还没解出来,却在过程中发掘出新的AI训练方法,新的算法,反过来推动了AI 的进步。


听说,魔搭社区已经发起号召了,就等着大神来揭榜。



相信「重赏之下,必有勇夫」,有着自己路数的AI必然让人期待。


还在等什么,快点击报名链接或扫描二维码,带着你的「硅基宝可梦」来挑战吧!


中文报名链接:

https://damo.alibaba.com/alibaba-global-mathematics-competition?language=zh


文章来自于微信公众号 “新智元”,作者 “新智元”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)