马斯克麾下最惨打工人:手滑删掉xAI三周训练数据
马斯克麾下最惨打工人:手滑删掉xAI三周训练数据偷师、借道、换血、误删……折腾到最后,xAI成了给对手供电的人。
搜索
偷师、借道、换血、误删……折腾到最后,xAI成了给对手供电的人。
大家好,我是袋鼠帝。 6月,感觉又是模型爆发的月份。
更聪明的计算远比更多的计算更有效。
尽管大语言模型(Large Language Models, LLMs)在复杂数学推理、代码生成和知识问答上表现突出,但它们仍常在多位数加法这类基础算术任务上犯错。
随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,LLM agents 正在被用于越来越复杂的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。
刚刚被 SpaceX 宣布以 600 亿美元收购的 Cursor,发布大模型了。本周二,Cursor 宣布了一个新的 1.5 万亿 + 参数模型,该模型在超过 10 万块 GPU 上进行了预训练。消息是在旧金山举行的 Cursor Compile 上宣布的,这是 Cursor 举办的首届旗舰大会。
6 月初,一则关于爆款 AR 手游《精灵宝可梦 GO》(Pokémon GO,以下简称《宝可梦 Go》)的消息开始发酵:有报道称,Niantic(《宝可梦 Go》开发商)过去通过玩家收集的现实世界图像和空间数据,正被用于训练一种可能服务于无人机导航的人工智能系统,而合作方之一 Vantor 与军工、国防场景存在关联。
机器学习已经习惯了处理序列:一句话中的词、视频中的帧、推荐系统中的点击、金融市场中的订单。但在很多真实场景里,数据并不是按固定步长排好队出现的。
当大模型开始控制机械臂、家用机器人时,“安全”这件事也变得不一样了。
导读:视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token,用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于,模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里;如果模型无法稳定读取这些 token,它们就很难成为有效的中间视觉证据。