AI资讯新闻榜单内容搜索-Benchmark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Benchmark
多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战

来自主题: AI技术研报
6372 点击    2025-09-06 11:50
CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

我们也看过各种 AI Coding 领域的评测,发现大多停留在了 「代码生成」与「封闭题目」的考核,却忽视了环境配置、依赖处理、跨仓库资源利用等开发者必经的真实需求 —— 当下众多 Benchmark 仅通过题目,已难以衡量 Code Agent 的实际效果。

来自主题: AI技术研报
6440 点击    2025-08-31 12:45
从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。

来自主题: AI技术研报
5681 点击    2025-08-27 11:42
速递|Manus的7500万美元融资或被强制撤资,官员要求风投Benchmark“站队美国”,否则便不受华盛顿欢迎

速递|Manus的7500万美元融资或被强制撤资,官员要求风投Benchmark“站队美国”,否则便不受华盛顿欢迎

速递|Manus的7500万美元融资或被强制撤资,官员要求风投Benchmark“站队美国”,否则便不受华盛顿欢迎

根据金融时报报道,美国风投巨头Benchmark或将被迫从Manus撤资。多位知情人士透露,美国财政部已对这笔交易展开审查,最糟情况下,Benchmark可能被要求全面退出。

来自主题: AI资讯
5790 点击    2025-08-17 15:09
以色列神秘部队孵化,视频AI黑马三天狂揽百万用户!红杉豪掷1亿美元押注的下一匹独角兽?

以色列神秘部队孵化,视频AI黑马三天狂揽百万用户!红杉豪掷1亿美元押注的下一匹独角兽?

以色列神秘部队孵化,视频AI黑马三天狂揽百万用户!红杉豪掷1亿美元押注的下一匹独角兽?

一家成立不足两年的以色列公司Decart突然以31亿美元估值拿下1亿美元B轮融资,领投方是红杉资本,Benchmark、Zeev Ventures等顶级风投也争相入局。

来自主题: AI资讯
7316 点击    2025-08-12 12:49
Manus被Reverse CFIUS调查之后,“AI套壳”类产品值得关注的X个问题

Manus被Reverse CFIUS调查之后,“AI套壳”类产品值得关注的X个问题

Manus被Reverse CFIUS调查之后,“AI套壳”类产品值得关注的X个问题

从今年4月底Manus完成了Benchmark领投的新一轮融资之后,市场上一直在关注Manus的Reverse CFIUS问题——很多人都等着看美国监管部门会不会枪打出头鸟,让Manus成为其第一个实际判罚案例

来自主题: AI监管政策
7793 点击    2025-07-12 19:11
5人团队,1700万融资,现金流为正,继Reducto获Benchmark 2450万投资后,文档处理赛道又迎来重量级玩家

5人团队,1700万融资,现金流为正,继Reducto获Benchmark 2450万投资后,文档处理赛道又迎来重量级玩家

5人团队,1700万融资,现金流为正,继Reducto获Benchmark 2450万投资后,文档处理赛道又迎来重量级玩家

你有没有想过,为什么在这个云计算和AI横行的时代,PDF文档处理依然是企业最大的痛点之一?想象一下这样的场景:一份包含数百页的贷款申请文档躺在银行系统里,等待人工审核,而申请人只能苦苦等待几天甚至几周才能知道结果。与此同时,医院里的医疗记录还在用打印机输出,然后手工传递给下一个医生。

来自主题: AI资讯
5740 点击    2025-07-01 11:03
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限

来自主题: AI技术研报
8563 点击    2025-06-16 17:26
深度对话 Benchmark 合伙人:AI 打破了 SaaS 的 3322 规则改变创造本质

深度对话 Benchmark 合伙人:AI 打破了 SaaS 的 3322 规则改变创造本质

深度对话 Benchmark 合伙人:AI 打破了 SaaS 的 3322 规则改变创造本质

Benchmark 合伙人 Eric Vishria 最近跟 Banana Capital 合伙人 Turner Novak 在其播客 The Peel 做了一个非常精彩的对话,这是我最近觉得非常不错的一个访谈。

来自主题: AI资讯
7485 点击    2025-06-11 14:45