ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
GPT-4o手写板书以假乱真惊呆网友!杀死谷歌翻译,代码建模无所不能
3836点击    2024-05-16 16:57

GPT-4o到底有多强?只有用过才能知道。这两天,网友们不仅探索出了很多全新ChatGPT的炫酷用法,也逐渐开始意识到,这标志这OpenAI将逐渐替代谷歌曾经的地位,全面接管AGI时代。


随着越来越多人开始试用GPT-4o,大家发现发布会上的demo真的只是冰山一角,官方后续发出的用例以及网友们的整活才是更精彩的部分。


生成手写体文字


OpenAI联创Greg Brockman今天po出一张GPT-4o生成的图片,他兴奋地宣布:


「仅用GPT-4o的图像生成功能就可以探索很多东西。团队正在努力将这些内容推向世界」



可以看到,这张图片中,黑板上的手写体达到了以假乱真的程度!


网友表示,看到这张图片的一瞬间还以为是Greg讲座现场的板书呢。



不知道笔迹专家看到了会作何感想,是否能读解出这面黑板上「机器书写」背后的人格特征呢?


看来GPT-4o不仅能模仿人类的语音语调,连字体也开始向人类手写体接近了。


1分钟从屏幕截图生成视频游戏


推特网友从网上找了一张Breakout游戏的截图,丢给ChatGPT并问它「你能把这个用Python编码出来吗?」


一分钟之后,ChatGPT就生成了一份没有bug、可以直接执行的Python文件,完全复刻了截图的效果。


9而且Breakout这个游戏也是大有来头,是一款1976年雅达利公司发行的街机视频游戏,Steve Jobs和Steve Wozniak曾经参与设计和开发工作。


用文字提示进行3D建模


前几天,有人曾经放出用GPT-4o将平面图片进行3D重建的之后的效果,已经十分惊艳。



但没想到,GPT-4o生成3D效果甚至都不需要给它平面图片,一段文字提示就够了,比如下面这个用户让ChatGPT创建一个STL文件,建模一个有四条腿的桌子,并添加一些随机特征。


ChatGPT不仅能给你渲染出的3D效果图,还能马上出一份原始的STL文件,就不用自己费力从头开始建模了。



这一版ChatGPT的更新就是瞄准了个人AI助手的方向,工作狂Sam Altman最近在接受采访时,也分享了自己使用ChatGPT提高工作效率的方法。



他说,在电脑上工作时,想搜索一些东西就不得不在页面之间不断切换。有了ChatGPT在旁边,就可以「随叫随到」直接问它,让自己能始终保持在专注的状态。


GPT-4o vs. 谷歌翻译


OpenAI的发布会展示了GPT-4o的实时翻译能力,实现了英语和意大利语之间的无缝转换,几乎没有响应延迟,让网友再次惊呼「翻译要失业了」,这次连同声传译行业也要一锅端了。


与此同时,也掀起了一场和谷歌翻译之间的较量。


有网友表示「谷歌和三星在手机上开发过类似的功能,但是做得很烂。你必须要说得很慢,而且确保吐字清晰,不然识别出的文本就会一团糟,也得不到正确的翻译。」



谷歌翻译到了要和大家说再见的时候了吗?随着OpenAI的语言能力不断扩展,这并非完全没有可能。



GPT-4o使用了新的分词器,不仅英语的效率更高(token减少了1.1倍),而且还提高了许多其他语言的使用效率。


Greg Brockman发文称「我们还显著提高了非英语语言的性能,包括改进分词器以更好地压缩其中的许多语言」。



OpenAI现在支持50多种语言,从Greg Brockman放出的图片中可以看出,包括阿拉伯语、俄语、印地语在内的多种语言的token数量都得到了压缩。



但是,OpenAI的翻译功能也并非无懈可击,有很多网友质疑发布会上ChatGPT生成的意大利语听起来有点奇怪。



于是有意大利用户在线答疑,「其实这不是一种口音,只不过是AI语音在单词之间插入了间隙。说英语时还好,但在意大利语中,这听起来非常奇怪和呆板,因为它扰乱了节奏。」


更要命的是,GPT-4o分词器语料库中,中文数据污染非常严重。


有老哥写了个脚本筛选ChatGPT新词表中最长的100个中文字符,结果发现里面大部分赌博网站广告,剩下一小部分是色情网站广告。




面对这种景象,网友不禁感叹「为什么GPT-4o如此horny?」



既然这样,还是多用GPT-4o「练习练习英语」吧。



「后浏览器世界」:ChatGPT后再无谷歌搜索


OpenAI同时发布了两项成果:GPT-4o及其新的ChatGPT桌面应用程序。有专家预测,虽然 GPT-4o因其多模态而大放异彩,赚足了眼球,但桌面应用程序才有可能真正挑战谷歌主导地位,改变当今互联网的形态。


GPT-4o的主要特点是多模态和低成本的低延迟,实现了人机之间更自然的对话和交互,而且与GPT-4Turbo相比似乎有了模型能力和智能的增长。


但当我们回顾几年后的2024年5月13日时,最重要的消息可能是ChatGPT桌面应用程序。


ChatGPT桌面应用程序将先对MacOS适用,随后推出Windows版本,目前官网已发布了移动端iOS和安卓系统的下载链接。


该应用程序可以快速访问ChatGPT,并且你可以选择让它「透视」你的屏幕,实现「看你所看」,还可以像使用ChatGPT一样,和它实时语音交互。


这完全超出了传统浏览器的功能想象,从浏览器进入桌面,OpenAI迈出的这一小步,有可能是人机交互方式向前发展的一大步,OpenAI希望的,是完成一场「搜索革命」。




浏览器是旧的互联网,万维网的世界是谷歌的主场。


但OpenAI对这种旧的方式say no,它带来是一种使用计算机和网络的新方式——一个可以为用户完成一切的助手,用户需要什么,只需大声说出来。


Sam Altman在他关于GPT-4o的博客文章中明确表示「对我来说,与计算机对话从来没有感觉很自然,但现在情况发生了改变。随着我们增加(可选的)个性化功能、访问你的信息、协助你采取行动,我真的看到了一个令人兴奋的未来,我们能够利用计算机做比以往更多的事情。」


ChatGPT桌面应用程序可以获取访问麦克风、摄像头、文件、登录信息以及用户屏幕的权限,是「个人助手」的最佳位置。


有了这个「助手」,即使是智能手机用户,也很难被谷歌和网络所吸引。


在这种与计算机交互的新方式中,万维网几乎没有立足之地。充其量,它充当的是信息的提供者。


事实上,OpenAI将自己定位为聊天机器人生态系统的看门人,它推出了「出版商优选计划」,正在把选定的媒体机构发展成为合作伙伴,美联社、Axel Springer、金融时报、世界报等媒体已加入该计划。



如果OpenAI 成功(目前还无法确定),那么它对我们信息生态系统的市场影响力将远远超过今天的谷歌。


本文来自微信公众号“新智元“










00:26



关键词: GPT-4o , OpenAI , chatGPT , AI生图
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales