
主观评测五大AI助手识图能力,奇葩卫生间标识识别大PK
主观评测五大AI助手识图能力,奇葩卫生间标识识别大PK作者测试了智谱GLM-4.5V(开启/关闭推理)、豆包、Kimi、元宝和ChatGPT-5在识别十张奇葩卫生间标识上的表现。评测模拟紧急如厕场景,按识别正确性评分。结果智谱普通模式得分最高(86分),ChatGPT-5和智谱推理模式次之(78分),豆包和元宝70分,Kimi垫底(38分),揭示了各AI视觉能力的差异及局限性。
作者测试了智谱GLM-4.5V(开启/关闭推理)、豆包、Kimi、元宝和ChatGPT-5在识别十张奇葩卫生间标识上的表现。评测模拟紧急如厕场景,按识别正确性评分。结果智谱普通模式得分最高(86分),ChatGPT-5和智谱推理模式次之(78分),豆包和元宝70分,Kimi垫底(38分),揭示了各AI视觉能力的差异及局限性。
根据金融时报报道,美国风投巨头Benchmark或将被迫从Manus撤资。多位知情人士透露,美国财政部已对这笔交易展开审查,最糟情况下,Benchmark可能被要求全面退出。
在大多数人还在讨论AI如何影响白领工作时,一家叫Topline Pro的公司已经悄悄拿下了2700万美元的B轮融资,专门为美国的蓝领创业者们打造AI驱动的商业操作系统。这不是什么遥远的科幻故事,而是正在美国50个州同步上演的商业革命。
形式化定理证明,又有新范式! 阶跃星辰正式发布并开源了形式化定理证明大模型:StepFun-Prover-Preview-7B和StepFun-Prover-Preview-32B。
当你的手机突然没信号时,电信工程师在做什么? 想象一下这样的场景:某个周五晚上,你正在用手机追剧,突然网络断了。与此同时,成千上万的用户也遇到了同样的问题。电信运营商的监控中心瞬间被数百个告警信息淹没 —— 基站离线、信号中断、设备故障…
如果你是一名正在投身 AI 浪潮的创业者,或者一个正在思考,如何利用 AI 改造现有业务的从业者,那么 G7 易流 CEO 翟学魂的经历,或许能给你带来一些重要的启示。
AI生成论文泛滥成灾,arXiv平台看不下去了—— 紧急升级审核机制,用自动化工具来检测AI生成内容。 Nature最新发现,原来每年竟然都有2%的论文会因为AI使用被拒?! 比如像,bioRxiv和medRxiv每天都要拒绝十多篇公式化AI手稿,每个月就高达7000多份。
谷歌开源Gemma 3 270M闪亮登场!只需几分钟即可完成微调,指令遵循和文本结构化能力更是惊艳,性能超越Qwen 2.5同级模型。
无需人工标注,吞下17亿张图片,Meta用自监督学习炼出「视觉全能王」!NASA已将它送上火星,医疗、卫星、自动驾驶领域集体沸腾。
短短两个月前,我们还在感叹 31 家 AI 小团队的高效表现,当时团队平均规模仅 20 人,人均创造收入高达 279 万美元(参见《细数 31 家 AI 应用小团队,平均 20 人、人均创收 279 万美元》)。