AI资讯新闻榜单内容搜索-Ark

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

大型语言模型（LLM）最近在各种数学benchmark上疯狂刷分，动辄90%以上的正确率，搞得好像要统治数学界一样。然而，Epoch AI看不下去了，联手60多位顶尖数学家，憋了个大招——FrontierMath，一个专治LLM各种不服的全新数学推理测试！结果惨不忍睹，LLM集体“翻车”，正确率竟然不到2%！

来自主题: AI技术研报

4313 点击 2024-11-11 14:36

NeurIPS 2024｜新一代芯片电路逻辑综合，可扩展可解释的神经电路生成框架

近日，中科大王杰教授团队（MIRA Lab）和华为诺亚方舟实验室（Huawei Noah's Ark Lab）联合提出了可生成具有成千上万节点规模的神经电路生成与优化框架，具备高扩展性和高可解释性，这为新一代芯片电路逻辑综合工具奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems（NeurIPS 2024）。

来自主题: AI技术研报

3582 点击 2024-11-05 15:01

解决真实GitHub Issue能力登顶，字节豆包MarsCode团队分享背后工程实践，踩过的坑也分享了

解决真实GitHub Issue的基准测试，字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench，一个由普林斯顿大学提出的极具挑战性的Benchmark，近期受到工业界、学术界和创业团队的广泛关注。

来自主题: AI技术研报

4808 点击 2024-11-04 15:29

RTE年度场景三强专访：实时语音、多模态Agent，创业机会在哪里？

10 月 25 日， RTE 年度场景 Showcase 暨第四届 RTE 创新大赛，Founder Park 作为核心生态合作伙伴应邀出席。

来自主题: AI资讯

3833 点击 2024-11-01 10:26

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

Max Tegmark团队又出神作了！他们发现，LLM中居然存在人类大脑结构一样的脑叶分区，分为数学/代码、短文本、长篇科学论文等部分。这项重磅的研究揭示了：大脑构造并非人类独有，硅基生命也从属这一法则。

来自主题: AI技术研报

4792 点击 2024-10-30 14:14

Notion Email 终于来了，模版 Marketplace 已实现支付交易闭环

Notion 今天举行了一个叫 Make with Notion 的发布会，这次发布会发布了一系列的新功能和产品，包括了表单（Forms）、布局（Layouts）、自动化（Automations）、Notion AI、交易市场（Marketplace）以及大家最期待的 Notion Email。

来自主题: AI资讯

4306 点击 2024-10-25 14:55

黄仁勋新访谈：OpenAI是这个时代最具影响力公司之一，马斯克19天创造工程奇迹

10 月 4 日，播客节目 BG2（Brad Gerstner 和 Clark Tang）邀请到了英伟达 CEO 黄仁勋，他们一起讨论了 AGI、机器学习加速、英伟达的竞争优势、推理与训练的重要性、AI 领域未来的市场动态、AI 对各个行业的影响、工作的未来、AI 提高生产力的潜力、开源与闭源之间的平衡、马斯克的 Memphis 超级集群、X.ai、OpenAI、AI 的安全开发等。

来自主题: AI资讯

8635 点击 2024-10-21 17:29

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

多年来，浙江大学周晟老师团队与阿里安全交互内容安全团队持续开展产学研合作。近日，双⽅针对标签噪声下图神经⽹络的联合研究成果《NoisyGL：标签噪声下图神经网络的综合基准》被 NeurIPS Datasets and Benchmarks Track 2024 收录。本次 NeurIPS D&B Track 共收到 1820 篇投稿，录⽤率为 25.3%。

来自主题: AI技术研报

4426 点击 2024-10-21 14:42

Benchmark合伙人：训练大模型目前成本远大于收入；但理论上成功回报极大，所以你仍需不断加注

随着LLM的进步，它将超越代码补全（“Copilot”）的功能，进入代码创作（“Autopilot”）的领域。随着LLM变得越来越复杂，它们能够释放的经济价值也会越来越大。AGI的经济价值仅受我们的想象力限制。

来自主题: AI资讯

3618 点击 2024-10-15 14:01

成立两年ARR千万美金，Benchmark投资的AI数字员工真的能替代人吗？

11x.ai 开发的人工智能“数字员工”如 Alice 和 Jordan，能够自动化处理销售开发、客户服务等重复性任务，帮助企业提升效率，降低成本，释放人力专注于更具战略价值的工作。客户可以根据完成的任务量或实际取得的销售成果进行付费，提供更定制化的服务。

来自主题: AI资讯

4640 点击 2024-10-14 10:18