AI资讯新闻榜单内容搜索-评测基准

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 评测基准
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。

来自主题: AI技术研报
3799 点击    2024-10-30 13:59
北大AI奥数评测,o1-mini比o1-preview分数还高

北大AI奥数评测,o1-mini比o1-preview分数还高

北大AI奥数评测,o1-mini比o1-preview分数还高

OpenAI的o1系列一发布,传统数学评测基准都显得不够用了。

来自主题: AI技术研报
8909 点击    2024-09-23 15:30
RAG 高效应用指南 02:Embedding 模型的选择和微调

RAG 高效应用指南 02:Embedding 模型的选择和微调

RAG 高效应用指南 02:Embedding 模型的选择和微调

在本篇文章中,笔者将讨论以下几个问题: • 向量模型在 RAG 系统中的作用 有哪些性能不错的向量模型(从 RAG 角度) 不同向量模型的评测基准 MTEB 业务中选择向量模型有哪些考量 如何 Finetune 向量模型

来自主题: AI技术研报
12279 点击    2024-08-03 10:44
大模型常用评测基准汇总

大模型常用评测基准汇总

大模型常用评测基准汇总

基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯
12396 点击    2024-07-23 19:24
大模型鲁棒不鲁棒,PromptBench测一测: 首个大语言模型提示鲁棒性的评测基准PromptBench

大模型鲁棒不鲁棒,PromptBench测一测: 首个大语言模型提示鲁棒性的评测基准PromptBench

大模型鲁棒不鲁棒,PromptBench测一测: 首个大语言模型提示鲁棒性的评测基准PromptBench

作为连接人类与大模型的桥梁,大模型对 「Prompt (提示词)」 究竟有多敏感?同样的prompt,可能写错个单词、写法不一样,都会出现不一样的结果。

来自主题: AI技术研报
8143 点击    2023-12-27 14:30