阶跃星辰开源图像编辑模型Step1X-Edit:一键改图大师,性能达到开源SOTA
阶跃星辰开源图像编辑模型Step1X-Edit:一键改图大师,性能达到开源SOTA阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
GPT-4o又双叒更新了。这一次,在智力和个性方面再次进化,STEM解决能力增强,响应更主动。与此同时,有人曝出它的生图质量大不如前。
根据他们刚发布的 2024 年财报,这家以“天工”大模型在国内引发不少关注的公司,2024 年的海外业务收入达到 51.5 亿元,海外业务收入占比竟然高达 91.0%!这在国内科技公司里,算的上“异类”。
马斯克xAI与X合并后,又有新动向!彭博社消息,马斯克正在为合并后的XAI Holding寻求一笔200亿美元(约1450亿人民币)的融资。如果交易完成,新·XAI的估值将超过1200亿美元(约8745亿人民币)。
o3看照片识位置的功能,简直令人毛骨悚然!Django Web大神Simon Wilson发现,o3凭借Python代码,就能破解自己照片的地理位置。这实在太反乌托邦了,人类的地理信息,对于AI已经完全透明了?
“模型会有很多,但应用才是王者。” 百度创始人李彦宏在Create 2025大会上直指AI产业重心。面对飞速迭代的大模型和开发者对应用价值持续性的普遍疑虑,他强调找对场景、善用模型工具的应用将超越模型本身。
今天的Agent框架虽然功能强大,但对于没有编程经验的客户服务专业人员来说却过于复杂。这些框架如AutoGen、LangGraph、CrewAI等通常将Agent声明嵌入到复杂的Python代码中,使整体工作流程难以把握,门槛过高。对于仅需构建带有业务逻辑的客服聊天机器人的非技术人员而言,这些框架犹如天书,让他们望而却步。
视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。
,MetaGPT & Mila 联合全球范围内 20 个顶尖研究机构的 47 位学者,共同撰写并发布了长篇综述《Advances and Challenges in Foundation Agents:
近期,一款 AI 浏览器产品 Fellou 在各大 AI 用户社群、媒体测评内容中陆续出现,受到热议与关注。Fellou 官方给出的定位是全球首个 Agentic Browser,一款基于 AI 技术的新型浏览器。Fellou 的核心亮点在于,用户只需一句话,Fellou 就能自动解析指令并跨多个网页和系统调度操作,从数据采集、表单填写到报告生成,实现一站式无缝交付。