ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
OpenAI重磅更新定档下周一,奥特曼暗示会有「魔法」!
5860点击    2024-05-11 16:25


编辑:桃子 好困

【新智元导读】OpenAI终于要放大招了!官宣定档下周一线上直播,预计发布全新AI语音助手,还有ChatGPT、GPT-4一系列更新。奥特曼澄清,没有GPT-5,也没有搜索引擎!


确认了,没有GPT-5,没有搜索引擎,但还会有惊喜!

OpenAI今天官宣预告,即将在13日,下周一上午10点(太平洋时间)开启线上直播。

届时,会有全新的ChatGPT demo演示,以及GPT-4升级更新。



传送门:https://openai.com/(OpenAI还在网页UI整了个小心机设计,一点满屏字颇有趣味)

而Altman本人更是兴奋地表示,「对我来说,感觉就像魔法一样」。



本来,发布「搜索引擎」这件事基本实锤,甚至连路透援引内部人士消息这篇报道,昨天在全网疯转。



然而,发布时间是对上了,但奥特曼突然变卦,直言「没有搜索引擎」。

据网友爆料,这是OpenAI投出的诱饵,目的是揪出内部泄密者。而经常给Jimmy Apples、Flowers泄密的爆料人,已经被OpenAI解雇。



不得不说,还是OpenAI套路深。



那么,万众期待的GPT-5没有,确认了再确认的「搜索引擎」也没有,下周一OpenAI的「魔法」究竟是啥?

Information独家报道,OpenAI正在开发一个全能的AI语音助手,预计在下周展示。

这项新技术可以通过声音和文本,与人交流,可以听出不同人的语调、语气,并能识别物体和图像。



网友纷纷表示,又是没等到GPT-5的一天。



Her即将成真!AI语音助手要来

其实,OpenAI希望,能够开发出一款像人类一样交流的AI。

Altman曾表示,自己对Spike Jonze导演的电影《Her》深感兴趣,并称其具有预见性。



在这个影片中,讲述了主人公爱上了一个对话操作系统——Semantha,并在互动过程中,AI也逐渐熟悉了他。

「她」记得他的故事,他的习惯,还发展出了自己的个性。



因此,打一开始,OpenAI致力于最终开发出类似于《Her》中的虚拟助手,同时让现有语音助手,如Siri更加出色。



新模型有音频输入、音频输出功能,以及更好的推理能力。在一些查询上甚至超过了GPT-4 Turbo

据两位知情人士透露,OpenAI已经向一些客户展示了这项新技术,包括优于现有模型的逻辑推理能力在内的多项能力。

而且,预计在下周一的活动中,将首次公开展示这款进阶后的AI。

可以确认的是,OpenAI这波操作再次截胡谷歌,抢占夺人眼睛的先机。



谷歌预计在14日召开I/O大会(OpenAI掐点的直播时间真及时,简直不给谷歌留下喘气的机会)

据网友发现,在Altman官宣不会发布「搜索引擎」,谷歌的股价立马飙升。



精准识别语调语气,但体积太大装不进手机

OpenAI团队笃定的是,具备视觉+音频能力的AI助手,可能会像智能手机一样,将给世界带来颠覆性的变革性。

ChatGPT,还只是这类强大AI助手的雏形。

理论上,他们设想的这款AI助手,可以完成不可能的任务。

比如,指导学生写论文、解决数学难题,或人们询问时,提供及时丰富的信息、翻译标志,甚至指导如何修理故障的汽车。



不幸的是,OpenAI这款AI目前体积太大,根本无法在个人终端设备运行。

不过,客户可以在短期内使用基于云的版本,来增强OpenAI已经支持的软件功能,例如自动客户服务智能体。

另据了解这项AI的人透露,新软件的音频功能可以帮助,这些智能体更精准地理解来电者的「语调」,以及他们是否在提出请求时使用「讽刺语气」。

目前,OpenAI已经开发了用于转录音频(Whisper)以及文本转语言(TTS)的模型。

ChatGPT背后便集成了这些能力,不过在用到的时候,需要分别调用这些工具。

据称,OpenAI即将推出的新模型,将这些能力整合到一个模型之中,即打造一个「原生多模态模型」。

这个全新多模态模型,在理解图像和音频方面表现更佳,同时其响应速度也超过了那些能力较弱的模型。

微软抢先体验

一如既往,OpenAI更新那天,作为「金主爸爸」的微软,定是最先用上新功能的那个人。

预计,微软将会利用OpenAI新技术升级自己的语音助手。

而且,他们设想试图去压缩这个技术,以便将其「装进」包括配备前置摄像头的可穿戴设备中,能够捕捉到用户的周围环境。



不过,目前虽尚不清楚OpenAI何时会向其付费客户提供这些新功能,但最终目标是,将其纳入ChatGPT的免费版本中。

据一位体验过的人士透露,OpenAI的目标是,让具备新功能的AI模型的运营成本,低于其当前收费的最尖端的模型GPT-4-Turbo。

他还指出,新模型在回答某些问题上表现得更好。然而,它依旧会出现「幻觉」。

GPT-5年底前发,冰山之下深藏的秘密

OpenAI的领先优势,几乎无人能及。

一直以来,谷歌高管梦想着,利用AI开发出强大的助手。

去年12年,谷歌首次展示了对话AI「Gemini」,能够实时响应人的语音指令,并识别人类正在观看的图片。



一时间,这个宣传视频在全网掀起轩然大波,让许多人瞬间对谷歌刮目相看。

没想到,还没发布一天,视频竟被曝出「造假」?!

谷歌随后解释,这些能力的实现,需要研究人员通过图片和文本指令来引导模型,并非视频所展示的那种简单对话。



此后,随着Gemini的迭代升级,也增加了一些新功能,除了分析图像和文本之外,还能分析音频。

尽管如此,它依旧不能理解多数传统语音命令,也不能像Siri和Google Assistant等传统语音助手那样与用户进行交流。



而OpenAI即将发布的AI语音助手,或许对谷歌来说,又是一个致命性的打击。

另外,OpenAI也在全力以赴,确保自己在AI领域的领先地位,不被主打「开源王牌」的Meta赶超。

今年4月,Llama 3的8B和70B版本发布,并预告了400B+开源大模型,直接狙击GPT-4。

而具备「音频+视觉」能力的AI模型,只是OpenAI正在开发的众多产品之一。

虽这次不会发布「网络搜索引擎」,但这件事确实在OpenAI内部正在推进,就是为了与谷歌搜索竞争。

毕竟,OpenAI在上周的主页中,已经对外展示了一个新的UI。



此外,OpenAI还在开发一种自动化软件,称为「计算机操作智能体」(computer-using agent)。

该软件有望加速软件开发,及其他计算机相关任务。

另外,今年年初,AI视频生成器Sora的诞生,已经在好莱坞掀起巨震,虽然目前尚未公开发布。

更重要的是,GPT-5也在默默推进中,并且要显著优于GPT-4。知情人士透露,OpenAI可能在今年年底前完成GPT-5的开发,并公开发布。



之所以,OpenAI内部在产品和AI模型开发上进展迅速,是因为此前宣布的项目,未能获得足够的关注。

比如,他们曾承诺开发者最在今年第一季度,通过构建定制聊天机器人,来为其商店赚钱。

但到目前为止,OpenAI尚未推出实现这一目标的具体方式。



ChatGPT装进iPhone,与苹果合作基本达成

另一方面,打造视觉+音频AI助手可以帮助OpenAI,将其能力引入数亿,甚至数十亿的苹果设备中。

就在刚刚,彭博报道称,苹果与OpenAI正在敲定一项协议,貌似接近尾声,基本达成。

这项协议,即将为今年的iOS提供全新的生成式AI能力。

此前,还曾爆出苹果与谷歌就Gemini的谈判正在进行中,不过还未达成协议。



毕竟,距苹果今年的开发者大会WWDC(6月10日),留给苹果的时间不多了。

多家媒体爆料称,这届大会将AI整合进全新iOS 18系统中。



对于大家的期待,苹果可不想辜负。



硬件设备,OpenAI也要自己做

此外,Altman还与iPhone设计师Jony Ive合作,去开发一款独立的AI消费设备。

Information曾报道,这款一个硬件可能从Emerson Collective和Thrive Capital等投资者那里,筹集到高达10亿美元的资金。

过去一年,AI Pin、Rabbit R1等AI驱动的设备和可穿戴产品蜂拥而出,Altman此举也是希望加入这一阵列。



不得不承认的是,即便OpenAI最先进的AI模型推出,也将因其庞大的规模,只限在云端运行,并且需要联网操作。

而未来,若想让复杂的具备「视觉+音频」的对话AI,缩小到足以在设备上运行,可能还需要几个月,甚至几年的时间。

全网大预测:智能体、gpt4-lite...

OpenAI这波官宣,可谓是戳中了所有人的兴奋点。

爆料人Jimmy Apples又来泄密,「预计下周,我们会看到智能体的发布」。



而「搜索引擎」可能会在苹果WWDC大会上,一起发布。



OpenAI研究科学家Bowen Cheng甚至表示,要发的可比GPT-5酷多了。



不知为何,这个帖子目前却被删除了。



另一位OpenAI负责视频生成的科学家Will Depue发了一张图,不知在暗示着什么。

还有一位网友Siqi Chen预测下周一,在GPT-4模型方面的更新:

- gpt4-lite:替换gpt-3.5
- gpt4-auto:一个新的模型端点(endpoint),可自动从网络检索数据,并集成内部数据来增强响应(不是「搜索引擎」)
- gpt4-lite-auto:与gpt4-auto类似,但使用的是lite版本。



同样,也有人称,gpt4-lite即将发布。



离职OpenAI,入职谷歌的Logan Kilpatrick表示,「6个月后,AI领域的格局将会完全不同。大多数人会对事情的发展感到惊讶」。



还有一个疑问是,OpenAI这次会对,gpt2做解释吗?

接下来一个月,AI海啸将翻涌而来。

关于GPT-5何时面世,最近Altman在All-In Pod中回应,「我甚至不确定我们是否会命名它为GPT-5」。

他暗示,未来可能不再遵循GPT N+1的发布模式,而是转向持续的改进过程。



01:12


但,GPT-5还得再等等。



文章来自于新智元

关键词: openai , chatGPT , GPT-5 , AI , 奥特曼
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales