GenFlow 打通了百度的「后花园」
GenFlow 打通了百度的「后花园」8月18日,百度文库上线了一款名为 GenFlow2.0 的 Agent 产品。 在 Agent 层出不穷的 2025 年,市场的第一反应很可能是:「又一个而已」。
8月18日,百度文库上线了一款名为 GenFlow2.0 的 Agent 产品。 在 Agent 层出不穷的 2025 年,市场的第一反应很可能是:「又一个而已」。
本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。
8 月 21 日,快手科技发布的 2025 年第二季度业绩报告,各项核心财务指标表现稳健,超出了市场普遍预期。
为什么在这个科技高度发达的时代,我们在预约医生、租房看房、维修报修这些最基本的生活场景中,仍然要忍受漫长的等待和糟糕的体验?为什么一个简单的医疗预约需要等待数小时才能接通电话,一次房屋维修申请要等几天甚至几周才有回复?这些看似琐碎的日常痛点,实际上揭示了两个关键行业的深层问题:它们仍然停留在手工操作的石器时代。
最初说不做视频生成模型的百度,现在在视频生成的路上一路狂奔! 就在刚刚,百度蒸汽机(MuseSteamer)视频生成大模型升级至2.0版本,主打多人有声音视频一体化生成。
7 月 29 日,一款 AI 智能耳机 Natura AI 在 Kickstarter 上发起众筹,目标金额 5 万美元,现已获得 815 人支持,共筹得了 12 万多美元。
硅谷的 AI 赛道上,三位手握国际信息学奥林匹克(IOI)奖牌的华裔青年正改写格局:斯科特・吴、沃登・严、斯蒂芬・郝,2023 年 11 月在硅谷车库启动项目,推出 AI 程序员 Devin。
在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力
在AI浪潮席卷全球的2025年,大语言模型(LLM)已从单纯的聊天工具演变为能规划、决策的智能体。但问题来了:这些智能体一旦部署,就如「冻结的冰块」,难以适应瞬息万变的世界。
这两天,刷到好几个超级酷的一镜到底的视频。 比如这个我昨天在X上刷到的视频,全程都是AI生成,一镜到底。 整个视频有点长,两分多钟,分了好几段,最惊艳的是前半段,我截给你们看一下, 这个真的很酷。