ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
一文读懂 AI 最新进展!打工人使用指南→
5671点击    2023-10-17 09:29

2023 年 3 月,以 GPT-4 为代表的 AI 技术掀起了一波 AI 热,而时隔半年,AI 领域又有了很多新进展,其中有一些可能会彻底改变身为“打工人”的生活。


下面,我们就来盘点一下这半年来,AI 领域那些最值得你关注的事情。


GPT 最大对手 Gemini 出现


2023 年 5 月,在 Google I/O 开发者大会上,谷歌 CEO 劈柴(PiChai)透露出谷歌旗下的 Deep Mind 正在训练 Gemini(双子星)模型。


Gemini 是专门对标 GPT-4 的大语言模型,根据半导体研究公司 SemiAnalysis 的分析,Gemini 的算力会达到 GPT-4 的 5 倍。


另外和 GPT-4 相比,Genimi 能更好地支持多模态输入,这意味着除了文字信息,Gemini 还能处理图片、语音信息,这让 Gemini 用起来可能会比现在的 GPT-4 更加方便。


而且我们可能很快就能见证 Gemini 的表现。根据海外科技媒体《The Information》在 9 月 14 日的报道,Gemini 已经向一些公司开放了使用、测试的权限。可能要不了多久 Gemini 就会部署到谷歌的产品矩阵中,开始为大众服务。



Open AI 训练,更加多才多艺的“GPT-5”


当然了,面对 Gemini 这样具有多模态能力的对手,OpenAI 也不会坐以待毙。


其实早在今年 3 月份的 GPT-4 发布会上,GPT-4 就展现出了多模态的处理能力。当时发布会上,演示者手绘了一张网页的草图,拍照发给 GPT-4 告诉它按这种布局做个网页,GPT-4 立即写出了网页代码。


不过在发布会结束后的实际应用中,使用者们似乎并没有体验到 ChatGPT 的多模态处理能力。


为了应对谷歌的 Gemini 的挑战,OpenAI 将 ChatGPT 和新型图像生成模型 DALL·E-3 结合起来,让 GPT 更加“多才多艺”。在 9 月 25 日,GPT-4 版本更新之后,它也能够处理语音和图片信息。


比如,下面是用 DALL·E-3 和 ChatGPT 共同生成的内容。GPT 不仅能够根据文字绘制对应的图片,也能解释图片上的信息,并且根据对话对图片进行一些修改。



▲DALLE3 根据文本创作的图片



▲GPT 解释为什么图片中的小刺猬这么好



▲按照要求“展现小刺猬很热心”DALL·E 3 生成的图片


除了把 DALL·E-3 和 ChatGPT 结合起来,OpenAI 也开始部署“GPT-5”。在 9 月 25 日发布的 GPT 新版本中,已经引入了语音交流和识别图像的测试功能。


其实在今年 3 月(也就是在 GPT-4 出现之后不久),出于对信息安全、隐私等方面的担忧,网络上曾经掀起过一股呼吁暂缓研究 GPT-5 的浪潮。作为 OpenAI 的 CEO,萨姆·奥特曼也承诺短期内不会训练 GPT-5 模型。


根据 The Information 的报道,在 GPT-4 出现之后半年,OpenAI 已经开始研发一款新的代号“Gobi”的模型,这种模型在设计之初就具有多模态能力。甚至一些媒体声称,它有可能会是未来的 GPT-5。


微软发布“打工人福利套餐”,Microsoft Copilot


9 月 21 日,微软发布了 Microsoft Copilot 全家桶。如果你对 Microsoft Copilot 比较陌生,那可以这么理解,我们常用的 Word、Excel、PPT 等软件以及 Windows 自带的浏览器都将获得 GPT-4 的加持。


以我们最常用的 Word 为例,在写文稿的时候,你可以直接告诉 Word 一个主题,让它自动生成一段和这个主题相关的文稿。同时,它还具备配图功能,你甚至不需要花时间在网上找图,直接让它根据文字生成图片即可。



还有 Excel,在新的 Microsoft Copilot 全家桶中,你不再需要记各种公式,也不需要在 Excel 里编程,只需要告诉 Excel 你的目的,它会自动替你完成写公式、写代码、分析数据的工作,你只需要等着看结果就可以了。


除此之外,在浏览网页的时候,你甚至可以不用详细阅读网页的内容,浏览器可以直接帮你总结出当前页面的重要信息,帮你大大节约时间。


这可能是这半年来对打工人最“友好”的 AI 大礼包。


AI 帮助人类了解气味


在人类的视觉、听觉、嗅觉中,嗅觉可能比我们想象的复杂得多。


对于视觉,我们看到的颜色可以跟光的波长建立关联,对于听觉,声音跟物体的振动频率有关。而对于嗅觉,人类不仅拥有数百个嗅觉感受器,生活中常见的味道往往是由很多种类的气味分子共同形成的,因此很难建立一个简单又完美的数学模型。


今年 8 月发表在《科学》上的一篇论文指出,科学家通过“图形神经网络”的 AI 技术,识别出了气味与成分之间的关联,生成了气味图谱。依据这个图谱,我们就可以利用已知的化合物去配置想要的味道。


更重要的是,AI 绘制的气味地图涵盖了 50 万种潜在的气味,这意味着在 AI 的帮助下,我们可能能闻到之前从未想象过的味道。这可能会大大改变食品还有香料行业的现状,让我们的生活更“有味”。



▲AI 识别气味的过程,图片来源:参考文献


在 9 月 14 日,自动驾驶公司 Wayve 发布了开环自动驾驶评论器 LINGO-1。我们可以把它简单理解成是一种自动驾驶解说器。


自动驾驶为什么需要配一个解说器?其实这是一项非常有趣又很重要的研究。想象一下,你在开车的时候,每做一个选择、动作肯定是有某个依据的。比如,你觉得前面的车太慢了,同时旁边的车道又很空很安全,于是你决定去开到旁边的车道去超车,或者在路口你放慢了车速,是因为这里人比较多,你需要谨慎观察周围的环境。


LINGO-1 也能够把自动驾驶汽车每一步的行为用人们熟悉的自然语言解释出来,还能根据人类的特定问题作出回应,比如当自动驾驶汽车停在路口的时候,你可以问它“你现在在观察什么?”;如果身边有人在骑自行车,你也可以问自动驾驶汽车“你怎么判断你跟这个骑自行车的人保持了安全距离?”


目前 LINGO-1 的回答准确率大约只有 60%,但 LINGO-1 的能力还在不断提升,而且这种研究意义很大。


它能够提高人工智能的可解释性。过去自动驾驶汽车的很多决策对人类来说都是一个黑箱,我们不知道汽车为什么要变道行驶,也不知道为什么前面明明可以超车,它却选择不超车。在了解 AI 是怎么样做决定之后,工程师们也能更好地设计自动驾驶算法,不断提高自动驾驶汽车的安全性。同时也能增加普通用户对自动驾驶的理解和信任,让人工智能做决策的过程不再是一个黑箱。


AI 在多项比赛中超越人类


8 月 30 日,一篇发表在《自然》上的文章显示,在第一人称视角的无人机竞速项目上,AI 已经超越了人类。


第一人称视角的无人机竞速跟一般的遥控飞机不一样,飞行员需要从高速飞行的无人机视角观察环境,进行操纵。对 AI 来说,AI 需要快速分析视频传感器中传回的信息,并做出决策优化飞行路线。按照《自然》文章中的说法,能够在这项比赛中打败人类冠军,是“移动机器人和机器智能领域的里程碑”。这项成果可能对未来的自动驾驶汽车、无人飞行器具有重要的价值。



除了在无人机领域,在验证码领域,AI 也有惊人的表现。


验证码在生活中非常常见,当你想输入账号登录网页的时候,往往会看到各种各样的验证码,包括识别奇形怪状的字母、数字,拖拽拼图一样的滑块,或者点击“脑袋向上”的图片。这些验证码的目的是防止机器人恶意登录、注册。


但 2023 年 7 月的一篇文章显示,AI 可能比人类更擅长应对验证码。实验邀请了超过 1000 名人类测试者让他们使用 120 个主流网站上的验证码。


结果发现,人类解决验证码问题的准确率在 50%~80%,相比之下,AI 解决验证码的准确率在 85%~100%,大部分都在 96% 以上。除了准确率比人高,AI 解决验证码的时间也比人类快 0.5 秒。


这意味着,随着 AI 技术的发展,人类用来防范 AI 的验证码作用可能也越来越小,这对网络和信息安全来说是一项非常严峻的挑战。科学家们需要开始设计能防住 AI、又不会把人类难倒的新型验证码了。


人脑模拟计划“失败”


虽然近些年人工智能技术突飞猛进,但是在用 AI 模拟人脑这件事上,人类惨遭“滑铁卢”。


在 2013 年,欧洲的科学家们开启了一个为期 10 年的“人类大脑计划”。科学家们打算在 10 年的时间里,用顶尖的计算机技术模拟人脑的上百亿个神经元和它们的神经突触,从而还原人类大脑的运行过程,揭开人类大脑的奥秘。


今年 10 月 1 日,就是这个项目的“兑现”时间,但科学家们总共投入了 13 亿欧元(约 100 亿人民币),却始终距离“模拟人类大脑”这个目标相去甚远,科学家们远远低估了人类大脑的复杂程度。可以说,这是人类建造“人工智能”尝试上的一次失败。


虽然在人类大脑计划中,人类没有成功建立起一个“人工智能”,但这样的探索非常有意义。在这个项目中,科学家们确实对人类大脑有了更深层次的了解。比如科学家们绘制出了更详尽的人类大脑图谱,在前额叶皮层中还发现了几个之前未知的脑区。


另外,科学家们建立起了基因表达和大脑结构之间的关联,科学家们能够从基因层面上研究一些大脑结构相关的疾病(比如抑郁症)。一些数字大脑模型在帕金森等疾病领域也已经有了临床应用。



▲图源:unsplash.com 摄影师:Xu Haiwei

除了欧洲的人脑计划,中国、美国、日本、韩国、澳大利亚等国家也都有自己的人脑计划,只有我们更深入地了解人脑结构,了解智能的本源,才能更好地发展“人工智能”技术。


人工智能领域的发展极其迅速,在半年里,GPT-4 就遇到了强劲对手、AI 帮助人类构建起了气味图谱和更详尽的大脑图谱,自动驾驶汽车也拥有了“讲解员”。


正是这样迅猛的技术发展,让我们能够享受到更加安全、便捷的生活。它们的发展是生活中每天都在上演的科幻大片。



参考文献

[1] https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

[2]https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai

[3] https://openai.com/dall-e-3

[4 ]https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/

[5] https://sitn.hms.harvard.edu/flash/2023/this-ai-smells-better-than-you/

[6] https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/



文章来自于微信公众号 “ 科普中国 ” ,作者 科学边角料





关键词: GPT-4 , Gemini , OpenAI , ChatGPT , DALL·E-3