AI资讯新闻榜单内容搜索-Mark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Mark
超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报
8799 点击    2025-03-18 10:54
解构Manus AI:这是通用Agent革命,还是精巧缝合怪?

解构Manus AI:这是通用Agent革命,还是精巧缝合怪?

解构Manus AI:这是通用Agent革命,还是精巧缝合怪?

自媒体的反应堪称狂热:“通用Agent终于实现了!”“这是继DeepSeek之后的又一技术革命!”这样夸张的赞誉随处可见。从Benchmark来看,它的表现确实非常亮眼,在GAIA测试中超越了之前的各种Agent以及OpenAI的DeepResearch。

来自主题: AI技术研报
9722 点击    2025-03-09 02:07
OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

最近AI圈最炸的瓜,毫无疑问是——Manus!一个AI Agent,不仅能刷GAIA Benchmark,还能远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」。听起来确实很能打?但我们 CAMEL-AI的🦉OWL项目看完Manus视频,集体摊手:就这?0天复刻走起!

来自主题: AI资讯
12278 点击    2025-03-07 14:33
北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

近日,北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目,推出小尺寸简易视频理解框架 TinyLLaVA-Video,其模型,代码以及训练数据全部开源。在计算资源需求显著降低的前提下,训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报
8202 点击    2025-02-10 16:54
o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来?!Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。

来自主题: AI资讯
7981 点击    2025-01-20 16:40
深度长文|人脑 vs AI:当10比特遭遇百万比特,我们还有未来吗?

深度长文|人脑 vs AI:当10比特遭遇百万比特,我们还有未来吗?

深度长文|人脑 vs AI:当10比特遭遇百万比特,我们还有未来吗?

2024年11月15日,加州理工学院生物学和生物工程系的Jieyu Zheng和Markus Meister发表了一篇震撼学界的论文《The Unbearable Slowness of Being: Why do we live at 10 bit/s?》[1]。这项研究揭示了一个令人不安的事实:人类大脑每秒仅能处理大约10比特信息。

来自主题: AI资讯
7754 点击    2025-01-13 11:36
李继刚 | 提示词的道与术

李继刚 | 提示词的道与术

李继刚 | 提示词的道与术

大家好!我是李继刚,我想大家或多或少之前看到我去年写的Markdown格式提示词和今年写的lisp提示词,这两年写作风格变化非常大,中间经历了非常大的转折。

来自主题: AI资讯
10746 点击    2024-12-02 11:54
OpenAI怒斥Scaling撞墙论!o1已产生推理直觉潜力巨大

OpenAI怒斥Scaling撞墙论!o1已产生推理直觉潜力巨大

OpenAI怒斥Scaling撞墙论!o1已产生推理直觉潜力巨大

Scaling Law撞墙了吗?OpenAI高级研究副总裁Mark Chen正式驳斥了这一观点。他表示,OpenAI已经有o系列和GPT系列两个模型,来让模型继续保持Scaling。

来自主题: AI资讯
5963 点击    2024-11-25 15:03