AI资讯新闻榜单内容搜索-Benchmark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Benchmark
北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

近日,北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目,推出小尺寸简易视频理解框架 TinyLLaVA-Video,其模型,代码以及训练数据全部开源。在计算资源需求显著降低的前提下,训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报
7079 点击    2025-02-10 16:54
o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来?!Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。

来自主题: AI资讯
7023 点击    2025-01-20 16:40
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!

来自主题: AI技术研报
4093 点击    2024-11-11 14:36
解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

解决真实GitHub Issue能力登顶,字节豆包MarsCode团队分享背后工程实践,踩过的坑也分享了

解决真实GitHub Issue的基准测试,字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench,一个由普林斯顿大学提出的极具挑战性的Benchmark,近期受到工业界、学术界和创业团队的广泛关注。

来自主题: AI技术研报
4660 点击    2024-11-04 15:29
NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库,还开源

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库,还开源

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库,还开源

多年来,浙江大学周晟老师团队与阿里安全交互内容安全团队持续开展产学研合作。近日,双⽅针对标签噪声下图神经⽹络的联合研究成果《NoisyGL:标签噪声下图神经网络的综合基准》被 NeurIPS Datasets and Benchmarks Track 2024 收录。本次 NeurIPS D&B Track 共收到 1820 篇投稿,录⽤率为 25.3%。

来自主题: AI技术研报
4249 点击    2024-10-21 14:42
Benchmark合伙人:训练大模型目前成本远大于收入;但理论上成功回报极大,所以你仍需不断加注

Benchmark合伙人:训练大模型目前成本远大于收入;但理论上成功回报极大,所以你仍需不断加注

Benchmark合伙人:训练大模型目前成本远大于收入;但理论上成功回报极大,所以你仍需不断加注

随着LLM的进步,它将超越代码补全(“Copilot”)的功能,进入代码创作(“Autopilot”)的领域。随着LLM变得越来越复杂,它们能够释放的经济价值也会越来越大。AGI的经济价值仅受我们的想象力限制。

来自主题: AI资讯
3477 点击    2024-10-15 14:01
成立两年ARR千万美金,Benchmark投资的AI数字员工真的能替代人吗?

成立两年ARR千万美金,Benchmark投资的AI数字员工真的能替代人吗?

成立两年ARR千万美金,Benchmark投资的AI数字员工真的能替代人吗?

11x.ai 开发的人工智能“数字员工”如 Alice 和 Jordan,能够自动化处理销售开发、客户服务等重复性任务,帮助企业提升效率,降低成本,释放人力专注于更具战略价值的工作。客户可以根据完成的任务量或实际取得的销售成果进行付费,提供更定制化的服务。

来自主题: AI资讯
4323 点击    2024-10-14 10:18
中科大成果斩获图学习“世界杯”单项冠军,霸榜蛋白质功能预测任务超1年 | TPAMI 2024

中科大成果斩获图学习“世界杯”单项冠军,霸榜蛋白质功能预测任务超1年 | TPAMI 2024

中科大成果斩获图学习“世界杯”单项冠军,霸榜蛋白质功能预测任务超1年 | TPAMI 2024

中科大成果,拿下图学习“世界杯”单项冠军! 由中科大王杰教授团队(MIRA Lab)提出的首个具有最优性保证的大语言模型和图神经网络分离训练框架,在国际顶级图学习标准OGB(Open Graph Benchmark)挑战赛的蛋白质功能预测任务上斩获「第一名」,该纪录从2023年9月27日起保持至今。

来自主题: AI资讯
3447 点击    2024-09-30 14:34