马斯克xAI的一个新动作,着实是引发了不少网友们的猎奇心理。
事情是这样的。
就在这个周末,xAI在自家的Grok里上线了一个新的文生图模型,名叫Aurora。
从效果上来看,可以说是相当的逼真且高清,尤其是人物图像的生成。
例如画两张马斯克:
然后网友们便一发不可收拾的在线整活,请欣赏Aurora生成的科技巨头CEO们:
对此,网友还特意叮嘱了一句“这不是拍出来的照片”。
还有这张被网友称为“最佳”的奥特曼的特写,Prompt也是极其简单:
Create an image of Sam Altman.
生成一张Sam Altman的图像。
网友也惊奇地发现,Grok终于可以把Cybertruck给画明白了:
效果虽好,但Aurora上线这事儿也是蛮drama的——
因为它仅仅闪现了几个小时……
对此,xAI官方并没有给出具体的原因。
但从网友们晒出的各种效果来看,Aurora并没设置其它同类产品的限制,例如公众人物、版权图像、血腥画面等。
马斯克本人则回复说:
只是测试版,很快会改进。
除了“闪现”之外,针对Aurora是不是自研这个话题,也成了网友们热议的焦点。
(注:White-labelled(白标)是一种商业模式或产品设计模式,指的是一家公司生产或开发某种产品或服务,然后允许其他公司以自己的品牌对其进行重新包装和销售。)
有这样的疑问并不奇怪。
因为在Aurora之前,Grok也有一款文生图的模型,那便是Flux。
当时发布Flux之际,官方宣布的就是跟Black Forest Labs进行的合作,而非完全自研。
对于这个问题,根据TechCrunch的说法:
至少xAI的一名员工称,他们帮忙微调过Aurora。
但截至发稿,这位员工在X上的消息已被删除。
有网友认为,Aurora是在Flux微调的可能性很大;但也有人基于马斯克此前的言论,认为不排除自研的可能性。
但更多的网友还是将目光聚焦在Aurora和Flux之间效果的差距。
例如同样是生成猫咪,Aurora的效果明显更写实一些:
对于天马行空的想法,Aurora对Prompt的理解能力也是要精准一些:
也正如我们刚才所展示的,Aurora尤其擅长人物写实的生成:
但它并非没有翻车的情况,也有人晒出了一些“一眼AI”的失败案例:
正值OpenAI“双12”直播进行时,奥特曼发推期待了一下第三天的内容(因为隔了一个周末)。
然后xAI的员工Greg Yang转发并配上了图文表示:
喜欢他们周末加班时也很chill。
随后,他还补充道:
在xAI工作真的太有趣了,感觉就是一群人一起打造很酷的东西,完全不像在工作。
除此之外,团队的另一名成员Chris Park还预告了一则重磅消息:
Grok 3即将到来。
参考链接:
[1]https://techcrunch.com/2024/12/07/elon-musks-x-gains-a-new-image-generator-aurora/?guccounter=1
[2]https://x.com/flowersslop/status/1865346104214061364
[3]https://x.com/TheGregYang/status/1865682549059866941
[4]https://x.com/chrisparkX/status/1865406193776074965
[5]https://x.com/SawyerMerritt/status/1865443191295549470
文章来自于“量子位”,作者“金磊”。
【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。
项目地址:https://github.com/black-forest-labs/flux
在线使用:https://fluximg.com/zh
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales