Qwen3.6-Plus 深度测评报告
Qwen3.6-Plus 深度测评报告本报告基于XSCT Arena平台,对 Qwen3.6-Plus-Preview(阿里云,2026-04-02 发布)在文字能力(xsct-l)、网页生成(xsct-w)、Agentic 任务(xsct-a)三大场景下的表现进行系统评测,并与Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5、
搜索
本报告基于XSCT Arena平台,对 Qwen3.6-Plus-Preview(阿里云,2026-04-02 发布)在文字能力(xsct-l)、网页生成(xsct-w)、Agentic 任务(xsct-a)三大场景下的表现进行系统评测,并与Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5、
Salesforce 是一家云软件巨头,一直在围绕 AI 重塑其业务,在周二于旧金山举行的一次小型聚会上,首席执行官马克·贝尼奥夫及其团队公布了这些努力的最新成果:Slack 的更新版本,配备了大量新的 AI 功能。其中最重要的是其 AI 助手 Slackbot 的重大升级
我的Claude Code,学会做梦了。说真的,我打这行字的时候自己都觉得有点离谱。事情是这样的。就在前些日子,Anthropic新出了一个功能叫Auto Dream,字面意思,让Agent在休息的时候,自动做梦。
就在今天凌晨,Cursor 3正式发布!自Cursor诞生以来的最大一次飞跃!X上Cursor的官方账号上发布的推文写得极其大胆:为所有代码都由Agent编写而建的世界,同时保持开发环境的深度
产品本身包括了一个Agentic Payment Skill,一个龙虾可以用的“虚拟卡包”,和一套他的围栏,(好像现在可以叫 Harness 了)。这些东西本身只是配套的 infra,核心在于商户的功能 Skill,服务于 Agent 的需求。商户会在 Skill 中引导用户授权 Agent,允许自主完成小额的支付。
过去一年,AI 硬件很热,但很多从业者心里其实都清楚,热归热,真正做起来并不轻松。
Harness(驾驭)的风,终究还是从大模型,吹到了机器人!
在 AI 圈,模型至上论正在遭遇前所未有的挑战。当所有人都在屏息等待新模型再次刷新智力天花板时,AI 基础设施领军人物、LangChain 联合创始人 Harrison Chase 在最新对话中抛出了新预判:大模型正在沦为大宗商品,而决定 Agent 成败的,是那个包裹在模型外的 Harness 。
去年讨论Agent落地时,重点往往是Context Engineering。大家都在琢磨怎么放 Few-shot,怎么优化 RAG 检索的文本片段。但随着 Agent 任务复杂度的上升,控制数据流向、工具调度和异常处理的底层脚手架代码,往往比单纯拼接文本对系统性能的影响更大。
刚刚,谷歌正式发布 Gemma 4,称“这是其迄今为止最智能的开放模型系列”。该系列面向复杂推理与智能体工作流设计,采用商业许可的 Apache 2.0 许可证开源。Gemma 4 提供四种规格:Effective 2B(E2B)、Effective 4B(E4B)、26B 混合专家模型(MoE)和 31B 稠密模型(Dense)。