我最近一段时间,除了处理项目上的一些问题,我将我的大部分时间都在体验目前的MCP成果上,我也在和不同的朋友进行交流,其实交流下来,只要是自己亲身使用过目前的MCP工具的基本上都有一些共同的认知:
1、未来在用户场景上会存在一个统一的Agent交互入口,未来各种专业的行业软件的用户交互界面可能不会有太大的存在感了,因为这些产品MCP化之后,只要保证大模型能够理解就行了,所以未来的一些软件的交互设计可能逐渐要从「人类交互友好型」转向「大模型理解交互友好型」。
2、目前的行业软件都需要面向大模型主动「被集成」,现在很多产品厂商的思路还是希望以自己的产品主,然后通过集成大模型来提升自己产品的能力,但是MCP的出现的一个很大的价值就是要整合这些行业软件以及数据的「碎片化」和「孤岛化」,当然现在的厂商可能情感上有点难以接受,比如现在的厂商对于立马开发出一个MCP的适配似乎显得不是那么的积极,目前比较先拥抱MCP的还是以一些开源的社区为主。
所以先上关于机会的结论:
在LLM+MCP这种Agent模式的组合下,未来一定会出现一个跨产品、跨行业的「超级空间智能体应用」,这个「超级空间智能体应用」在行业里面可能会是超越目前所有GIS平台,他可以没有自己的原子能力实现,但是他可以整合Blender/SuperMap/ArcGIS/QGIS/GDAL/Cesium等等一系列和行业所有相关的技术能力然后帮助用户实现一个需求,形成一个新的应用模式,即使现在官方还没有SuperMap和ArcGIS的官方MCP实现,社区也一定会有人通过这些产品的插件开发功能来开发相应的面向MCP的插件,也可以通过付费的方式分发。而且在B端的用户场景中,这样的「超级智能体应用」还会进一步向上聚合形成跨行业的「超级智能体应用」。
但是经过这段时间的验证,也发现了一些现状方面的问题:
目前我自己测试的MCP Client包括了Cursor、Cline和最近刚出来的Cherry Studio。
在大模型方面对比测试了DeepSeek、腾讯hunyuan、月之暗面Kimi以及Claude,提示词是「在Blender场景中创建一个山 山脚下有一个房子」。
Cursor目前我这边已经用完了免费的额度,但是最近同行又将他买的一个Cursor账号借给我用了一下,非常感谢,所以能够继续测试,当然如果是有兴趣可以参考目前github上的一些无限续杯的方案,在这边就不多介绍了,对于Cursor我主要还是想测试跨MCP的理解和执行情况怎么样。Cline目前还不支持SSE,还没有找到切换python虚拟环境的办法,用直接执行的时候总是提示需要按照库,但是我这边由于环境比较乱,导致一些库之间冲突了,所以这个工具暂时没有深入的用。
Cherry Studio是最近两天好几个同行都给我推荐的可以支持MCP的工具,我最近用了一下发现他确实是一个比较方便易用的MCP集成工具,预置了不少大模型,也支持SSE,所以我也就很快的将现有的Blender和QGIS的MCP配置上去了。
首先测试的是DeepSeek,根据产品的显示DeepSeek的Chat和DeepSeek的Reasoner都是支持工具调用的,但是实际使用下来发现只有Chat是支持的,Reasoner直接报错提示不支持,但是DeepSeek Chat对工具的支持也比较僵硬,没看到有反思的过程,就是无情的执行工具调用。
其实核心还是调用了BlenderMCP集成的hyper3d.ai,这是由影眸科技打造的一个3D建模和生成模型,旨在帮助用户将2D图像或文本快速转换为高质量的3D模型,用户可以通过输入描述性提示词或上传图片,选择不同的模式(如融合模式或拼接模式)生成3D模型。hyper3d.ai支持多种输出格式(如GLB、OBJ、FBX等),并兼容Unity、Unreal Engine等主流游戏引擎,可以满足不同场景的需求。
接下来使用了一下腾讯的hunyuan-pro,虽然提示也是有工具使用能力的,但是实际使用的过程中,发现它是可以输出分析推理过程的,但是就是没办法进行工具调用,所以放弃了。
紧接着就是月之暗面的Kimi,这个模型如果不充值就不支持三个以上的连续请求,强行终止,而且默认是不支持MCP工具调用的,但是我还是充值了,然后测试了一下只有你明确的告诉他让他去调用工具,他才会去调用3D生成工具,然后他才会调用工具,总体上也是可以执行的,也是执行过程的输出比较简单,而且也感受不到他是否在执行反思和调试修改,都是顺序执行就结束了,这个和DeepSeek Chat很类似。
后面就是利用借来的账号再次测试了一下claude执行这个提示词,第一次不提示他使用工具,他就只能生成一个圆锥做山,一个方块做房子,总体上感觉话是理解了,但是没有能力生成。
然后,就在提示词上添加可以调用工具,这个时候他就会理解开始调用Blender MCP集成的工具,并且会不断的反思查看生成的结果,然后来进一步的调整这个结果,这个是目前做的最好的。
然后紧接着我还想测试claude跨MCP工具的理解和执行能力,所以我就准备了如下的提示词,交给他执行,他执行的逻辑就是下载了建筑矢量之后,就使用GeoJSON格式导出,然后再在Blender里面拉高,形成了如下的效果,就是有点太高了。但是实际你看他的这个建筑数据是不对的,无论是分布还是层高都是不对的,这也是Claude的一个特点,就是他会不断的想办法把整个流程走完,就像他没办下载数据成功,他就会自说自话模拟一些数据然后保证流程的运行。
但是从他推理的过程来看,目前由于相应MCP Server中缺乏插件工具的介绍,所以基本上他们都不会直接使用第三方插件,除非很明确让他使用,它才会调用,所以除了工具,基础上下文的提示词、数据的暴露也很重要。
总体来说,Claude的体验是最好的,Cherry Studio的集成环境最好,但是目前国内模型的问题其实也都不算什么问题,完善只会是时间的问题,而且这个时间不会太长。而且现在很多这类的创业和分享也在蠢蠢欲动,比如昨天就有人找我,想让我帮忙写一个这类的方案,然后去争取一些融资,还有一些机构也在找相应的一些分享,MCP这种Agent构建模式确实是让大家都看到了一下代「超级空间智能体」的机会,大家一起努力吧。
完整的使用配置、MCP原理介绍和MCP软件和配套大模型支持情况测试的视频,我放在了知识星球,而且我也将我的知识星球的名称更换成了从零开始学习「超级空间智能体」,以前我觉得「空间智能」还很远,还是「空间计算」务实,但是现在我感觉「空间智能」很近,就在眼前,让我们一起拥抱「超级空间智能体」的时代吧!
文章来自于“GIS小丸子”,作者“深度抑郁患者”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0