AI资讯新闻榜单内容搜索-DiT

GPT-5.1 Codex 比Claude便宜 55%，代码漏洞更少！全栈开发老鸟警告：Anthropic 需要重新考虑定价了！

最近，小编注意到一位全栈工程师 Rohith Singh 在Reddit上发表了一篇帖子，介绍他如何对四个模型（Kimi K2 Thinking、Sonnet 4.5、GPT-5 Codex 和 GPT-5.1 Codex）进行了实测。

来自主题: AI资讯

7976 点击 2025-11-18 15:10

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

一篇入围顶会NeurIPS’25 Oral的论文，狠狠反击了一把DiT（Diffusion Transformer）。这篇来自字节跳动商业化技术团队的论文，则是提出了一个名叫InfinityStar的方法，一举兼得了视频生成的质量和效率，为视频生成方法探索更多可能的路径。

来自主题: AI技术研报

7547 点击 2025-11-14 14:25

硅谷大佬带头弃用 OpenAI、“倒戈”Kimi K2！直呼“太便宜了”，白宫首位 AI 主管也劝不住

刚刚，这样一个消息在 Reddit 上引发热议：硅谷似乎正在从昂贵的闭源模型转向更便宜的开放源替代方案。

来自主题: AI资讯

5989 点击 2025-10-29 11:07

Seedream 4.0大战Nano Banana、GPT-4o？EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段，图像编辑（Image Editing）正逐渐取代一次性生成，成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型？

来自主题: AI技术研报

6311 点击 2025-10-25 14:26

超越Runway！Adobe发布新神器：P视频比P图还简单

全新AI工具EditVerse将图片和视频编辑整合到一个框架中，让你像P图一样轻松P视频。通过统一的通用视觉语言和上下文学习能力，EditVerse解决了传统视频编辑复杂、数据稀缺的问题，还能实现罕见的「涌现能力」。在效果上，它甚至超越了商业工具Runway，预示着一个创作新纪元的到来。

来自主题: AI技术研报

7844 点击 2025-10-25 10:42

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

9396 点击 2025-10-23 12:28

如果中国大模型不再开源

美国 AI 圈开始出现“担心中国开源断供”的苗头了吗？10 月 20 日，在专注于开源模型讨论、拥有 55 万成员的 Reddit 分论坛“r/LocalLLaMA”上，一位网友发布了一则“当中国公司停止提供开源模型时会发生什么？”的提问，并表达了假如中国模型逐渐闭源或开始收费该怎么办的担忧。

来自主题: AI资讯

7438 点击 2025-10-22 15:06

破解空间智能数据稀缺难题，影石开源DiT架构全景生成模型，在线可玩

空间智能领域的全景数据稀缺问题，有解了。影石研究院团队，推出了基于DiT架构的全景图像生成模型DiT360。通过全新的全景图像生成框架，DiT360能够实现高质量的全景生成。

来自主题: AI技术研报

6115 点击 2025-10-18 12:02

谢赛宁新作：VAE退役，RAE当立

谢赛宁团队最新研究给出了答案——VAE的时代结束，RAE将接力前行。其中表征自编码器RAE（Representation Autoencoders）是一种用于扩散Transformer（DiT）训练的新型自动编码器，其核心设计是用预训练的表征编码器（如DINO、SigLIP、MAE 等）与训练后的轻量级解码器配对，从而替代传统扩散模型中依赖的VAE（变分自动编码器）。

来自主题: AI技术研报

7267 点击 2025-10-14 16:34

剑桥揭开大模型翻车黑箱！别再怪它不懂推理，是行动出错了

为什么大模型，在执行长时任务时容易翻车？这让一些专家，开始质疑大模型的推理能力，认为它们是否只是提供了「思考的幻觉」。近日，剑桥大学等机构的一项研究证明：问题不是出现在推理上，而是出在大模型的执行能力上。

来自主题: AI技术研报

7465 点击 2025-10-14 11:10