
947元买个AI书签?又一个“脱裤子放屁”式创新
947元买个AI书签?又一个“脱裤子放屁”式创新一叠便签纸、一个普通书签和一支笔,售价2美元(折合人民币14.7元)。一个能做类似事情的钛合金AI书签,售价129美元(折合人民币947元),你会心动吗?
一叠便签纸、一个普通书签和一支笔,售价2美元(折合人民币14.7元)。一个能做类似事情的钛合金AI书签,售价129美元(折合人民币947元),你会心动吗?
近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。
最近AI圈最炸的瓜,毫无疑问是——Manus!一个AI Agent,不仅能刷GAIA Benchmark,还能远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」。听起来确实很能打?但我们 CAMEL-AI的🦉OWL项目看完Manus视频,集体摊手:就这?0天复刻走起!
2023 年,阿里妈妈首次提出了 AIGB(AI-Generated Bidding)Bidding 模型训练新范式(参阅:阿里妈妈生成式出价模型(AIGB)详解)。
随着LLM的进步,它将超越代码补全(“Copilot”)的功能,进入代码创作(“Autopilot”)的领域。随着LLM变得越来越复杂,它们能够释放的经济价值也会越来越大。AGI的经济价值仅受我们的想象力限制。
国产 3A 大作属实让人热血沸腾,但 AI Native 游戏也同样让人着迷。
苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。
Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
还有12款大模型全军覆没……
本⽂介绍由清华等⾼校联合推出的⾸个开源的⼤模型⽔印⼯具包 MarkLLM。MarkLLM 提供了统⼀的⼤模型⽔印算法实现框架、直观的⽔印算法机制可视化⽅案以及系统性的评估模块,旨在⽀持研究⼈员⽅便地实验、理解和评估最新的⽔印技术进展。通过 MarkLLM,作者期望在给研究者提供便利的同时加深公众对⼤模型⽔印技术的认知,推动该领域的共识形成,进⽽促进相关研究的发展和推⼴应⽤。