
实测商汤AI视频Agent Seko,一句话成片要塌房了
实测商汤AI视频Agent Seko,一句话成片要塌房了视频Agent生成过程中顶多也就是让我点点选项,或者直接针对某一处不满意的地方用对话形式修改,甚至可能我提了一个意见,直接整个片子都给我换了个不一样的。
视频Agent生成过程中顶多也就是让我点点选项,或者直接针对某一处不满意的地方用对话形式修改,甚至可能我提了一个意见,直接整个片子都给我换了个不一样的。
今年上半年,围绕 AI 的讨论,正在从「技术能做什么」转向「技术如何赚钱」。 当「模型参数」竞赛和「能力演示」热潮逐渐褪去,资本市场和企业自身都开始更严苛地审视 AI 投入的真实回报。
以前创投圈有句名言,叫VC/PE的尽头是放贷。这背后的逻辑非常朴素:无论任何产业都需要金融支持,而贷款是最直接、最明码标价的金融工具;与此同时,贷款又是金融服务中最依赖人力、最陈旧、最碎片化的领域之一,目前大多数提供贷款的金融机构仍然依赖孤立的系统、耗费大量人力的流程以及被动的合规方法。
当前 GPT 类大语言模型的表征和处理机制,仅在输入和输出接口层面对语言元素保持可解释的语义映射。相比之下,人类大脑直接在分布式的皮层区域中编码语义,如果将其视为一个语言处理系统,它本身就是一个在全局上可解释的「超大模型」。
AI Coding背后的争议,正在升级。 有人说它是写代码的“自动驾驶”,有人说只是个“聪明的实习生”;有人觉得它能让0基础小白一键出成果,有人则坚持它应该精准到不改一行多余的代码。
假如你还没有尝试用AI来提升效率,那一定要抽点时间来研究下,你会打开新世界的大门! 如果你用过,但觉得AI并没有传说中的那么神奇,不妨看看今天的文章,或许能帮助你更得心应手的驾驭AI。
从 AI 教育、AI 游戏,到具身智能、AI玩具,甚至是生命科学等行业,各行各业都在寻求 AI 工具落地的可能性。
Token危机真的要解除了吗? 最新研究发现,在token数量受限的情况下,扩散语言模型的数据潜力可达自回归模型的三倍多。
你搜索"铯原子有多少个质子"时,Google一分钱都赚不到。但当你搜索"最好的网球拍"时,它就开始印钞票了。这种不对称性定义了整个搜索经济的本质。现在,随着AI的崛起,这个平衡正在被彻底打破。
最近体验了一个 AI 工具的内测版本,确实跟之前见到的AI产品不太一样。 它做的事情是:一句话,生成一个完整可玩的3D游戏。
Notion 可以说是最早一批在产品内落地 AI 的公司了。 2023 年 2 月就上线了 Notion AI,甚至早于 GPT-4 的发布。后续又陆续了发布了 Q&A 、Meeting Notes、企业搜索、AI for Work 等功能。
相信我们每个人,多少都和发票打过交道,有不少人都体验过报销时整理票据的烦恼。
2025年被视为 AI Agent元年,各家科技巨头也纷纷出手,谁都不想错失这个火热的赛道。
年初,DeepSeek 前脚带来模型在推理能力上的大幅提升,Manus 后脚就在全球范围内描绘了一幅通用 Agent 的蓝图。新的范本里,Agent 不再止步于答疑解惑的「镶边」角色,开始变得主动,拆解分析需求、调用工具、执行任务,最终解决问题……
刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。 使用该框架,他们还构建了一个旗舰模型 OpenCUA-32B,其在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。
当AI竞赛进入深水区,一批新物种企业正在改写游戏规则。他们手握AI「通关密码」,在游戏、具身智能、可穿戴等赛道上跑出了光速增长曲线。更劲爆的是,百度智能云还甩出了亿级算力补贴福利包。
前些天,OpenAI 少见地 Open 了一回,发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b。
人工智能初创公司Akool荣登2025年度“Inc. 5000”榜单榜首,成为美国增长最快的私营企业。
我最近深入研究了一家名为 StackOne 的伦敦创业公司,他们刚刚完成了由 GV(Google Ventures)领投的 2000 万美元 A 轮融资,这不仅仅是一个简单的融资消息,而是整个企业软件生态系统即将迎来根本性变革的信号。
好家伙,AI领域独角兽,已经高达498家。 其中100家是在2023年成立,到现在也不到2年。 它们的总估值达到了恐怖的27000亿美元,已经超过谷歌24400亿美元市值。
一面是Meta豪掷143亿美元下注Scale AI,一面是OpenAI紧急切断合作——当全球目光聚焦硅谷之时,一家藏身首尔的初创公司悄然撕开了AI安全市场的裂口。
最近 AI 界的大新闻是 GPT-5 和谷歌的世界模型 Genie 3。然而,在无人在意的角落里,微软悄悄把 Edge 进化成了了 AI 浏览器。
马斯克宣布旗下公司取消「研究员」头衔,强调「工程师」的重要性,掀起与AI先驱LeCun关于研究与工程本质区别的激烈争论,引发业界对科技创新与组织管理战略的深入思考。
制作一个视频需要几步?可以简单概括为:拍摄 + 配音 + 剪辑。 还记得 veo3 发布时引起的轰动吗?「音画同步」功能的革命性直接把其他视频生成模型按在地上摩擦,拍摄 + 配音 + 粗剪一键搞定。
随着AI时代的到来,上一代取得巨大成功的互联网产品都在紧密地结合大模型的能力,为用户提供焕然一新的服务和产品体验。这其中,部分产品走在了变革前沿,不仅利用大模型完成了产品重塑,还借助AI开启了产品的第二增长曲线。
相信我们的读者都对 AI 顶会有非常大的关注和热情,有的读者最近可能刚从 NeurIPS rebuttal 脱身,又开始为下一篇做准备了。 作为推动技术革新与思想碰撞的核心引擎,顶级学术会议不仅是整个学界的生命线,更是我们洞察未来的前沿阵地。
AI应用又爆出大冷门事件。 成立仅三年的AI初创公司Perplexity正式向谷歌发出收购要约,计划以345亿美元全现金形式收购Chrome浏览器业务。
强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
战火升级!马斯克还在X上和奥特曼口水战,奥特曼反手就密谋支持一家脑机接口公司,与马斯克的Neuralink正面对决。这场关乎人类未来的科技战争,已经从AI蔓延到了你的大脑!
GUI 智能体正以前所未有的速度崛起,有望彻底改变人机交互的方式。然而,这一领域的进展正面临瓶颈:现有数据集大多聚焦于 10 步以内的短程交互,且仅验证最终结果,无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。