事情是这样的,前两天面壁刚刚推出了“小钢炮” MiniCPM-V 2.6 模型,据说视频理解能力直接对标GPT-4V,最重要的是能直接部署在iPad 上。
我最近老是刷到一些鉴宝的直播,但咱也不懂里面的门门道道。既然“小钢炮” 2.6支持实时视频理解,那带着它去潘家园淘淘古玩,万一AI眼比较尖,捡个能大开门的漏那就赚了。
潘家园店主:
这APP我也想下一个
说干就干,二话不说,我带着安装了MiniCPM-V 2.6的iPad就冲进了潘家园,先看看它对复杂环境的识别能力如何????。
对于环境中的元素大致都能识别清楚,但是对于具体的文字,繁体字的识别会产生一些幻觉,整体的反应速度大约在2秒左右,还算是比较即时的反馈效果。
当然今天的重头戏还是在于“鉴宝”,浅测一下实时反应力后,我们直奔珠宝玉石的摊位,直接开测!
文玩首饰鉴别
玉石鉴别
“小钢炮”MiniCPM-V 2.6 基本能够根据一些手串配饰、玉石珠宝的颜色、外观、形状、样式等,识别出大致材质、产地以及有什么象征意义、作用,甚至还有一些风水学的研究????,看它描述的也是越来越专业。
但是,对于我这种之前从未接触过文玩玉器的小白来说,那我确实无法判断是真是假。所以对每个样品测试后,我都会再问一下店主具体是什么材质,最后发现“小钢炮”2.6 识别的准确率也还算可以,大部分都能够识别清楚,但一般会给出两个材质的选择,这个就需要我们自己来再进一步的鉴别了。
另外在测试的到一半的时候,我直接被好几家的店主和顾客们给团团围住,他们对“小钢炮”2.6 的鉴宝能力也是十分好奇。
最后,还一个店主一直追着我问这个软件怎么下载,他说:“有了这种软件卖货也方便了,真假一目了然。识别的比较准确,直接拿出来给顾客一看,也能让顾客买的放心。”
谁能想到文玩店店主竟然这么想要 AI 给他们站台。这个商机不知道大模型公司们考不考虑。
MiniCPM-V 2.6:
微表情心理学
测完“小钢炮”MiniCPM-V 2.6 的鉴宝能力,我对他微表情捕捉能力也很好奇,不知道他可不可以根据人们表情分析出内心的想法。于是我又厚着脸皮邀请了我的朋友们@绿绿和@椰子来帮我一起测评。
经过一番表演测试,“小钢炮”MiniCPM-V 2.6确实能够根据人物的表情,大致分析出人物的心理状态,并且对于微表情基本也能捕捉,比如“微微皱眉”、“眼睛看向某个地方”、“眼睛微眯”等,但是偶尔也会出现针对某些细节描述错误的现象,而且目前单次可输出字数限制200字左右。
总的来说,整体的表现还是挺不错的。马上七夕快到了,用它来识别女朋友的表情,再也不用担心女朋友说“你不懂我了”????
MiniCPM-V 2.6:
看巴黎奥运会
最近GPT-4o的语音功能出来后,有网友让它解说足球比赛,那情绪表达确实很到位。同样,我们也让MiniCPM-V 2.6来解说一下,2024巴黎奥运会的热门比赛。因为它暂时还没有语音交互功能,所以我们先测试了它的文案解说能力表现如何。
MiniCPM-V 2.6针对奥运会比赛的场景识别还是比较准确的;对于运动幅度较大的项目,比如跳水,MiniCPM-V 2.6可以识别到运动员翻转的动作;而对于乒乓球的动作识别没有具体描述,但可以根据现场的状态可以分析出比赛竞争激烈。
话又说回来,其实奥运会比赛的现场解说,对人类解说员也是有很高的要求,需要有很快的反应速度和语言表达能力,更何况AI呢。而且目前MiniCPM-V 2.6对于输出内容有文字限制,另外对于过于复杂,变幻过于快速的场景的反应和处理确实还有待加强。
我们不过分的要求AI的进化速度,但是期待AI能够给我们带来更好的体验。
文章来自于微信公众号硅星GenAI 作者 丸丸柚贝
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales