AI资讯新闻榜单内容搜索-AI评测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI评测
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。

来自主题: AI产品测评
7643 点击    2024-12-26 09:20
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等学术机构学者组成的开源组织,致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。

来自主题: AI技术研报
4407 点击    2024-10-22 14:38
卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

微软发布了 Copilot,Apple 将 Apple Intelligence 接入了 OpenAI 以增强 Siri。

来自主题: AI技术研报
3708 点击    2024-10-18 13:59
Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟,研究的探索空间正由预训练转向后期训练(Post-training),OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报
4175 点击    2024-10-14 15:46
大模型常用评测基准汇总

大模型常用评测基准汇总

大模型常用评测基准汇总

基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯
10894 点击    2024-07-23 19:24