首个大模型全链路安全综述 !南洋理工新国立等发布LLM Safety全景图:从数据、训练到部署的全面梳理
首个大模型全链路安全综述 !南洋理工新国立等发布LLM Safety全景图:从数据、训练到部署的全面梳理随着人工智能技术迅猛发展,大模型(如GPT-4、文心一言等)正逐步渗透至社会生活的各个领域,从医疗、教育到金融、政务,其影响力与日俱增。
随着人工智能技术迅猛发展,大模型(如GPT-4、文心一言等)正逐步渗透至社会生活的各个领域,从医疗、教育到金融、政务,其影响力与日俱增。
多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。
大模型之战烽火正酣,谷歌Gemini 2.5 Pro却强势逆袭!Gemini Flash预训练负责人亲自揭秘,深挖Gemini预训练的关键技术,看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。
“2月16日那一周,感觉全中国的政府企业都在上Deepseek,甚至很多单位原来一张卡都没有,突然就有了DeepSeek满血版。”金山办公Office产研事业部副总经理刘丹说道,“那段时间我认识的大部分领导也都在问,‘你们到底什么时候接,怎么样的节奏’,整个行业都特别火热。”
4月27日,字节跳动正式启动2026届Top Seed大模型顶尖人才校招计划,开放招募30位顶尖应届博士。大约一个月前,字节跳动开始推进一项名为“节节高”的招聘计划吸引年轻人,计划对毕业不到3年的人才进行大面积扩招,如果内推的社招候选人工作年限≤3年,将有额外奖金。
阿里Qwen3凌晨开源,正式登顶全球开源大模型王座!它的性能全面超越DeepSeek-R1和OpenAI o1,采用MoE架构,总参数235B,横扫各大基准。这次开源的Qwen3家族,8款混合推理模型全部开源,免费商用。
宝可梦之后,让大模型玩井字棋又成了一个新的热门挑战。
多模态大模型几何解题哪家强?
大模型技术加速向产业渗透,如何直击业务痛点、带来真实增效?
一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习(RLVR)的认知。RLVR被认为是打造自我进化大模型的关键,但实验表明,它可能只是提高了采样效率,而非真正赋予模型全新推理能力。