
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。
移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。
智谱将开源 32B/9B 系列 GLM 模型,涵盖基座、推理、沉思模型,均遵循 MIT 许可协议。该系列模型现已通过全新平台 Z.ai 免费开放体验,并已同步上线智谱 MaaS 平台。
虽然扩散模型在视频生成领域展现出了卓越的性能,但是视频扩散模型通常需要大量的推理步骤对高斯噪声进行去噪才能生成一个视频。这个过程既耗时又耗计算资源。例如,HunyuanVideo [1] 需要 3234 秒才能在单张 A100 上生成 5 秒、720×1280、24fps 的视频。
单张图直接就能生成可编辑的CAD工程文件!
重视前沿技术敏感度,编程能力成硬通货
书接上回,用几块3000元显卡作为加速主力的一体机,就能跑通671B的DeepSeek。
刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。
AI辅助人类,完成了首个非平凡研究数学证明,破解了50年未解的数学难题!在南大校友的研究中,这个难题中q=3的情况,由o3-mini-high给出了精确解。
随着 OpenAI o1 和 DeepSeek R1 的爆火,大语言模型(LLM)的推理能力增强和测试时扩展(TTS)受到广泛关注。然而,在复杂推理问题中,如何精准评估模型每一步回答的质量,仍然是一个亟待解决的难题。传统的过程奖励模型(PRM)虽能验证推理步骤,但受限于标量评分机制,难以捕捉深层逻辑错误,且其判别式建模方式限制了测试时的拓展能力。
连续创业者马宇驰,在上一波人工智能大潮中创立三角兽科技,带领公司被腾讯收购,去年重回AI赛道,参与到新一轮大模型应用创业中,2033科技于2024年已经完成天使轮融资,由商汤科技和东方国资共同投资近亿元人民币。