作为 2025 年动作最多的 AI 产品之一,夸克近期在发布了「AI 超级框」后,又带来了新的 AI 多模态入口————拍照问夸克。
作为手机相比其他 AI 硬件来讲,拍照是让手机自始至终留在 AI 最前线的原因,围绕手机相机这个入口,不断涌现出优秀的 AI 原生应用。
在夸克上线 拍照问夸克时,我刚好在台湾出差。就在上周,夸克 App 不仅登顶台湾地区 App Store 工具排行榜,甚至还登上了免费应用榜第二名,意外成为宝岛用户们追捧的热门应用,甚至在台湾岛内引发了关于 AI 产品的不小话题度。
不少台湾用户在实际体验过夸克后,在社交媒体分享,认为夸克 AI 深度思考功能在旅游出行、健康咨询、投资置业、法律咨询,以及很多学生党提到的拍照搜题解析等方面都能给到优质回答参考,帮助提升决策效率,是继 DeepSeek 之后的又一大陆 AI「神器」。
因此机缘巧合之下,我带着刚刚风靡台湾的夸克,开启了一场台湾之旅,想看看夸克这次能给我的体验带来哪些改变。
01
我在台湾用夸克 AI
从用户角度来看,直接使用相机作为与 AI 应用交流的工具,显然也确实要比纯文字输入要便捷许多,但过去数年相机内容识别领域似乎并没有孵化出真正意义上的「爆款产品」,AI 产品给普通用户留下最刻板的印象,仍然是一个「更聪明的聊天机器人」。
这也是夸克 AI 相机与其他产品的最大不同之处。夸克 AI 相机的产品交互理念,其实高度趋同 「AI 超级框」,更像是将我们熟悉的文本与大模型交互的体验,迁移到相机中,作为「新入口」。
夸克 AI 相机的能力也是提供了一个解读物理世界的统一入口,例如博物馆、展览等场所,一直是 AI 相机聚焦的核心用户场景——这也恰好是大多数人旅游最常见的场景所在。
搜图本身就是夸克一直以来的优势领域,对于最关键的识别物体「是什么」这件事上,夸克有着几乎是市面上最好的识别准确度,这一点在 AI 相机中也有体现。
在参观博物馆时,对于这样经常会拍很多照片的场景,我经常会忍不住拍摄很多照片,所谓「拍图一时爽修图火葬场」,这对于后期处理图片来讲经常就是一件很头疼的事。
由于夸克 AI 相机支持一次上传/拍摄最多 10 张图进行智能交叉分析,因此我可以直接让它根据我提供的一组图片,识别并总结多图中的所有展品内容,自动帮我生成一个可以发朋友圈/小红书的文案。
你甚至可以把同一个场景拍摄的两张图同时传给夸克 AI 相机,让它来决定哪个更适合发朋友圈,哪一个发小红书,能获得更多的点赞。
在我的体验中,夸克 AI 相机的多图识别另一个「高光时刻」,是在点餐时,我可以一口气将菜单上的每一页都用 夸克 AI 相机先给拍下来,然后以一种类似「逛淘宝添加购物车」一般的体验,在线下点餐。甚至可以直接将夸克的回复,展示给店员,让夸克全流程帮我完成点餐这件事。你还能在点完餐后,要求夸克根据现有的点餐信息,帮我整理出这顿饭摄入的热量。
对于一个更加聪慧的 AI 相机来讲,在完成用户的基本需求的同时,更大的想象空间还在于如何主动判断那些用户隐藏在照片背后,无法更好的用语言形容的问题。
在我的体验中,给我的体验带来变化最大的,是夸克 AI 相机能准确识别台湾现实世界复杂场景,并进行深度推理的能力。
这一能力的一个体现,在夸克 AI 相机对于模糊照片信息的搜索上。例如我在社交媒体上看到一个非常著名的、适合拍飞机的地点,但原图实际上非常模糊。直接扔给传统的 AI 图像识别 App,效果往往不甚理想。
按照近两年 AI 图像识别产品的常规思路,应该是先「提升图片清晰度」然后再全网检索类似风格的图片,进行深度搜索。但夸克依托对原图的检索匹配能力,准确识别到了正确图片原图拍摄地址。
对已经非常模糊的网络图片,夸克 AI 相机可以通过「溯源」的方式,直接找到原本的发布来源|图片来源:极客公园
除了多图识别,夸克 AI 相机还借助本身的模型能力,在更精准的信息获取的同时,实现了更智能的意图识别,理解我在拍摄同时的提问意图,智能推荐对应功能。
例如我在抖音上看到台湾本土有哪些比较好拍的街景,我可以直接截图下来,扔进夸克 AI 相机里,它就会智能推荐这附近的著名景点。
在当地的很多博物馆中都有有趣的文创小玩具,但有一个问题是太贵,但我可以直接顺着这个问题问下去: 例如直接提问我在淘宝上怎么买到同款玩具,AI 相机就可以立即通过我拍到的纪念品样式,通过接入的淘宝拍立淘能力,给我推荐类似玩具的淘宝在售链接。
除了好用的原图识别,夸克 AI 相机通过多轮图片问答,让你可以针对一些基于图片产生的复杂问题,进行连续追问和深度对话。在短暂的上手、理解了 AI 相机的这套交互逻辑之后,你大概率还能举一反三,用这套公式去解决更多以往文本交互难以高效解决的问题。
例如我在上传某家餐厅相关的信息后,就能根据此前的图片中上传的信息,持续进行深度的提问,并且在后续的提问中,随时可以进行补充图片、并继续追加提问更多细节。
02
夸克定位的优势与思考
从一周对夸克「拍照问夸克」的实际体验中,我也逐渐理清了是什么让夸克 AI 相机,相比以往相机识别类 App 更加好用的「秘诀」。
从拍照识别到 AI 相机这个概念,更像是从「Know-What」到「Get it Done」的一个产品形态跃迁——我们其实已经在过去 1-2 年看到过不少类似产品都在依托 AI 能力,完成这样类似「鲤鱼跃龙门」一般的变迁。
在今年推出「AI 超级框」之后,夸克在 AI 相机上的布局,本质上也是一种类似「AI 超级框」的产品形态跃迁。通过结合多模态视觉理解和深度思考模型,将手机相机入口升级为全场景智能体入口。
显然,作为通过手机感知世界信息的主要优势,图像表达的方式更加便捷,无论是拍摄眼前画面还是上传相册图片,都能够更直接地与物理世界互动并快速获取信息,在实际体验后我也会觉得,「拍照问夸克」本身就代表了一种 AI 应用交互体验的一种趋势。
夸克 AI 相机的「好用」,不仅是因为其对应场景下百亿级语料和专业文库等支持,确保图像解析和意图识别精准度行业领先;同时借助过去夸克文搜图时代积累下的大量图片数据库和对图片的语义理解,夸克 AI 实物识别的任务处理中,能提供比同类产品更精准的信息反馈,以及主动提供更加精准匹配用户潜在需求的服务。
其次,与「AI 超级框」一脉相承的,还有 Agent All in One 的理念。通过把夸克长期以来积累的搜索能力、学习能力,在 AI 相机背后,作为可调用的独立 Agent。
在 AI 相机中,夸克此前的扫描、学习、医疗以及 PPT 等功能都被整合进统一入口|图片来源:极客公园
在 AI 相机中,将图搜、扫描、截图等多个功能作为独立 Agent 智能调用。通过集成夸克已有的优势 Agent,如解题、医疗、文创和扫描王等,夸克在一个 AI 相机的入口,就能一站式调用多种 Agent 能力。
在将相机升级为智能体入口后,用一个「拍照问夸克」按钮承接工作、学习、生活、购物、创作等几乎无限的需求。大幅提升大模型能力在「相机」这一场景下的可用性,才是夸克「技术护城河」的核心所在。
03
AI「新入口」,不只是「拍照」
当前,AI 应用为王的趋势已经变得愈发明显,但真的想要打造爆款,甚至是改变用户使用相机乃至搜索引擎的习惯,真正在比的,其实是 UI 之下,大模型厂商对 Agent 的整合能力。
从基础模型到最终产品,大模型厂商还有很多工作要做。在实际使用体验之后我更加确信,想要让看似简单的一个「拍照搜索」真正变成「AI 相机」,绝不只是做一个多模态大模型那样简单。
这个过程,或许不如做一款模型来的「性感」,但对于用户体验来讲同样重要。这就是「拍照问夸克」能力想要交付给用户的真正核心体验。
无论是「从单模态到多模态」,还是「从物体识别到 Agent 新入口」,其实最终的重点都落在了,如何在用户的刚需场景中,通过自主决策理解用户意图,满足用户延伸出来的各种碎片化需求。
对夸克与阿里来讲,这样的能力,在未来的 AI 多模态能力、乃至无法更多依赖文字输入的 AI 赢家终端竞争中,都会显得至关重要:尤其是今年已经有夸克与天猫精灵合作研发 AI 眼镜的消息流出,已经可以想象,当前夸克在 AI 入口领域的理解与优势,都可以无缝延伸到智能眼镜乃至更多 AI 智能硬件上。
这样面向用户的产品塑造能力,是让夸克能够数次打造出 AI 产品爆款概念的关键所在,也是近期夸克 AI 搜索框在台湾走红、乃至走向世界的底层能力。
文章来自微信公众号 “ 极客公园 “,作者 张勇毅
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/