AI资讯新闻榜单内容搜索-AI评测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: AI评测
中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

在当今迅速发展的人工智能时代,大语言模型(LLMs)在各种应用中发挥着至关重要的作用。然而,随着其应用的广泛化,模型的安全性问题也引起了广泛关注。

来自主题: AI资讯
6659 点击    2024-12-27 10:08
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。

来自主题: AI产品测评
6233 点击    2024-12-26 09:20
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等学术机构学者组成的开源组织,致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。

来自主题: AI技术研报
3919 点击    2024-10-22 14:38
卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

微软发布了 Copilot,Apple 将 Apple Intelligence 接入了 OpenAI 以增强 Siri。

来自主题: AI技术研报
3220 点击    2024-10-18 13:59
Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟,研究的探索空间正由预训练转向后期训练(Post-training),OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报
3616 点击    2024-10-14 15:46
大模型常用评测基准汇总

大模型常用评测基准汇总

大模型常用评测基准汇总

基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯
9626 点击    2024-07-23 19:24