
浙大校友重磅革新Transformer!多token注意力让LLM开挂,错误率归0
浙大校友重磅革新Transformer!多token注意力让LLM开挂,错误率归0简单的任务,传统的Transformer却错误率极高。Meta FAIR团队重磅推出多token注意力机制(MTA),精准捕捉复杂信息,带来模型性能飞升!
简单的任务,传统的Transformer却错误率极高。Meta FAIR团队重磅推出多token注意力机制(MTA),精准捕捉复杂信息,带来模型性能飞升!
双人动作生成新SOTA!
如何让你的模型能感知到视频的粒度,随着你的心思想编辑哪就编辑哪呢?
评估多模态AI模型的那些复杂测试,可能有一半都是“重复劳动”!
36氪获悉,近日人形机器人公司松延动力北京科技有限公司(以下简称「松延动力」)完成连续两轮过亿元A轮及A+轮融资。A+轮由彬复领投,华强资本跟投;A轮投资方包括神骐资本、北京未来科学城基金、天启资本、泽然资本、教育科技集团战略方等机构。
开年以来,DeepSeek的梁文锋、Manus的肖弘,成为中国AI圈冉冉升起的新星。培养他们的母校浙江大学和华中科技大学也一并沾光。
当地时间2月17日,埃隆·马斯克旗下人工智能公司xAI直播发布新一代人工智能大模型Grok 3,马斯克直接说这是“地表最聪明AI”。 而更吸引国内观众注意的,则是直播画面里的几张华人面孔。据统计,xAI创始团队四成是华人,其中还包括一位浙江大学毕业的张国栋。
在 Scaling Law 背景下,预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉,缺乏全面和明确的指导方针。在此背景下,该研究提出了一个数据管理器 DataMan,其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。
全球空间智能第一股来了!来自中国,来自杭州。2月14日,空间智能独角兽群核科技正式向港交所递交招股说明书,启动IPO进程,冲击“全球空间智能第一股”,摩根大通、建银国际为联席保荐人。
在处理这类复杂任务的过程中,大模型智能体将问题分解为可执行的工作流(Workflow)是关键的一步。然而,这一核心能力目前缺乏完善的评测基准。为解决上述问题,浙大通义联合发布WorfBench——一个涵盖多场景和复杂图结构工作流的统一基准,以及WorfEval——一套系统性评估协议,通过子序列和子图匹配算法精准量化大模型生成工作流的能力。