实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%
5802点击    2026-04-24 10:12

实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


Qwen3.6系列全员集结完毕。


智东西4月23日报道,昨晚,阿里通义千问团队宣布开源Qwen3.6-27B——一款270亿参数的稠密多模态模型,支持思考与非思考模式。


与阿里上一代开源模型Qwen3.5-397B-A17B相比,Qwen3.6-27B以1/15的参数规模,在SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0以及 SkillsBench上实现了反超,其编程能力提升明显,同时还具备较强的文本和多模态推理能力。


与相似尺寸的Gemma 4-31B模型对比,Qwen3.6-27B在大部分维度上,展现出较大领先优势。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


随着Qwen3.6-27B的发布,阿里称Qwen3.6系列已完整发布,包括开源模型Qwen3.6-35B-A3B和闭源模型Qwen3.6-Plus、Qwen3.6-Max-Preview。


阿里云百炼平台上,现在已经可以看到Qwen3.6-27B的价格,每百万Token输入价格3元,输出价格18元。由于Qwen3.6-27B是稠密模型,价格并不便宜。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


Qwen3.6-27B现已上线Qwen Studio,并以开源权重形式发布于Hugging Face和ModelScope,阿里云百炼API即将上线,届时将支持preserve_thinking功能以适配智能体任务。该模型也可接入OpenClaw、Claude Code、Qwen Code等主流第三方编程助手。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


体验地址:

https://chat.qwen.ai/

开源地址:

https://huggingface.co/Qwen/Qwen3.6-27B

https://modelscope.cn/models/Qwen/Qwen3.6-27B


01.

编程能力:界面美观、功能完备

复杂需求一次到位


官方对比了Qwen3.6-27B和Qwen3.5-397B-A17B,在编程基准上,Qwen3.6-27B在多方面领先:SWE-bench Verified(77.2 vs. 76.2)、SWE-bench Pro(53.5 vs. 50.9)、Terminal-Bench 2.0(59.3 vs. 52.5)以及SkillsBench(48.2 vs. 30.0)。在推理任务上,Qwen3.6-27B在GPQA Diamond上取得了87.8的成绩,略次于Qwen3.5-397B-A17B的88.4。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


为直观验证Qwen3.6-27B编程能力,智东西进行了如下的几个测试。


首先,我们先让它做了一个跑酷小游戏,测试其编程和前端能力,要求满足角色动作、关卡要素、道具系统、UI设计等多维度约束。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


它用时四分钟左右,写完了1200多行代码。从实测结果来看,游戏设计与前端实现上,Qwen3.6-27B基本还原了提示词中列举的全部核心要素:玩家的跳跃、二段跳等均已实现,添加了无人机、针刺等障碍物,能量电池、金币、磁铁等均可拾取。美术风格符合设定,UI层完整展示了血量、分数、速度、距离等指标,游戏可玩性强


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


细节层面仍存在一些小问题,针刺悬浮在天上有点怪;吃到电池后,没有能量条显示;撞到箱子,就自动过去了,没有扣除血量。


另外,我们还让Qwen3.6-27B制作了个人记账应用考察的是模型应用开发能力和对闭环设计的理解,包括统计逻辑怎么算、数据怎么持久化、异常输入怎么拦截,比写一个静态页面要复杂得多。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


在应用开发上,Qwen3.6-27B的表现相对稳健。生成的应用完整实现了记录的增删改查、按月份筛选、总收入/总支出/结余的统计以及近7天收支趋势图表,刷新页面后数据没有丢失,说明localStorage持久化已正确实现。


唯一的小Bug是刷新页面后,7日收支柱状图一度不显示,再记一笔账后恢复,属于“初始渲染时机”问题。模型在异步状态初始化的顺序上,没处理到位。从界面上看,这个记账应用视觉设计较为简约,是一套偏实用向的标准控件组合。业务逻辑维度上,它把一个日常工具该有的数据流、统计逻辑与异常处理都串起来了,对于应用开发全流程的理解比较清晰。


之后,我们还让它做了个新闻网站前端设计,看起来还是有模有样的。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


Qwen3.6-27B自行规划,分了科技、财经、体育、娱乐、健康五大板块,设有国内新闻和国际新闻,界面右侧,还展示了热门排行、标签、北京的天气,甚至把商业化都想好了,留出了广告的位置。界面条理清晰,内容完整,可视化效果好,模型对“一个新闻网站长什么样”有较为成熟的认知。


02.

多模态能力:

识别验证码、找不同,通通拿下


作为原生多模态模型,Qwen3.6-27B支持视觉语言思考与非思考模式,可处理图像、视频与文本的联合理解,覆盖视觉推理、文档理解、视觉问答等场景,能力基本上与Qwen3.5-397B-A17B想当。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


针对多模态能力,我们也对Qwen3.6-27B进行了测试,首先让它识别了下面这几个验证码。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


可以看到,它较为清楚的判断出了绝大多数验证码,只有第八个0AIs,他把s认成了6,其他都判断的比较准确,同时也注明了自己不确定的部分。这种带置信度反馈的识别方式,对后续的自动化校验链路更友好,下游系统可以基于置信度决定是否自动通过。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


展开思考过程,我们可以看到它多次确认图8的验证码0AIs,最后一位它在b和6之间反复纠结,被旁边字母干扰,在错误的道路上越走越远了,而正确答案s自始至终没有进入过它的候选集。


这样看下来,Qwen3.6-27B的图像识别和推理能力还是过关的,得到相对模糊的反馈后,还需进行人工验证。


另外,我们还让Qwen3.6-27B进行了“找不同”测试,让它看看左右两张图有什么区别。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


Qwen3.6-27B识别出了5处差异,不同难度的不同点都注意到了:鸟窝、打开的书、灯笼、颜色差异,还有墙上的挂饰,这个我自己一开始都没注意到。


实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%


值得注意的是,它的思考过程非常简单,简单比对就完成了分析,而且描述也很清晰,展示出模型的较强的视觉识别与推理能力


03.

结语:阿里开源战略渐趋聚焦

27B模型瞄准开发者核心需求


Qwen3.6系列的发布,折射出阿里在开源策略的转向。此前,阿里曾开源从几十亿参数量到数千亿参数量的各种模型,但本次Qwen3.6系列仅开源了小尺寸MoE模型和稠密模型,体现出其开源战略的聚焦。


此类小模型面向开发者、研究者及小团队,可以直接本地部署,或在其基础上做进一步研究和微调。Qwen3.6-27B恰好卡在了这个需求的中心位置。


开源社区对这一尺寸的模型呼声很高;从实际价值看,27B的稠密模型也更能满足开发者对部署灵活性和可控性的现实要求。


文章来自于"智东西",作者 "杨京丽"。

关键词: AI新闻 , Qwen3.6-27B , Qwen , 阿里AI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0