北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准
北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括:(1)回溯性:每轮修改文本可能涉及历史参考图像信息(如保留特定属性),要求算法回溯利用多轮历史信息;(2)多样化:FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍,且交互轮次数量接近其27倍,提供了丰富的多模态检索场景。
本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括:(1)回溯性:每轮修改文本可能涉及历史参考图像信息(如保留特定属性),要求算法回溯利用多轮历史信息;(2)多样化:FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍,且交互轮次数量接近其27倍,提供了丰富的多模态检索场景。
刚刚,Claude背后公司Anthropic官宣新一轮融资: 35亿美元!投后估值达到615亿。 在Clauede-3.7发布后,此轮新融资便浮出水面,并在今天正式公布。
今天想介绍一个 17 岁的华裔大学生,他最近做的一个 AI Wrapper 产品,发布 5 小时收入就突破了 1 万美金,随后在发布的推文火了之后又通过线上会议 Google Meet 的售后承诺在 24 小时赚到了 3 万美金。
要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。
基础模型竞争又紧张刺激起来了!GPT-4.5刚登顶竞技场且全任务分类第一名,6小时后总榜就被马斯克的新版Grok-3反超。两者都是获得3000+票数,总分1412:1411只差一分。
又添新鲜血液。根据 TechCrunch 报道,由一位华人创始人 Weber Wong 开发的 AI 创意工具 Flora 于 3 月 1 日正式上线。时至今日,AI 图像与视频赛道的产品和格局已经有点固化了,能够有新鲜产品加入,还是华人创始人,确实很令人惊喜。
当地时间2月17日,埃隆·马斯克旗下人工智能公司xAI直播发布新一代人工智能大模型Grok 3,马斯克直接说这是“地表最聪明AI”。 而更吸引国内观众注意的,则是直播画面里的几张华人面孔。据统计,xAI创始团队四成是华人,其中还包括一位浙江大学毕业的张国栋。
据众擎机器人介绍,众擎机器人SE01自主研发的“动态重心补偿算法”以每秒1000次的姿态微调对抗前倾失控风险;仿生肌肉驱动系统使关节瞬时扭矩高达330N·m;而毫米波雷达与视觉融合感知系统则将落地误差控制在±2cm内。
继上周发布全球首个混合推理模型 Claude 3.7 Sonnet 之后,Anthropic 又迎来了一个好消息。今天凌晨,Anthropic 官宣完成 E 轮融资,筹集到了 35 亿美元,投后估值 615 亿美元。
智东西3月3日报道,继2月22日超过豆包后,今日,腾讯旗下AI大模型应用腾讯元宝超过DeepSeek,登顶iOS免费App榜。近期借势DeepSeek,腾讯元宝存在感爆棚,密集上新:2月17日宣布已上线DeepSeek-R1 671B和腾讯混元深度思考模型Thinker(T1);2月18日宣布调用腾讯元宝紧急支持微信搜索,让大家都能稳定体验和使用DeepSeek-R1;