Llama模仿Diffusion多模态涨分30%!不卷数据不烧卡,只需共享注意力分布
Llama模仿Diffusion多模态涨分30%!不卷数据不烧卡,只需共享注意力分布这次不是卷参数、卷算力,而是卷“跨界学习”——
这次不是卷参数、卷算力,而是卷“跨界学习”——
近年来,大语言模型(LLMs)取得了突破性进展,展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前,普遍的观点认为其成功依赖于自回归模型的「next token prediction」范式。
广东打响了第一枪。深圳龙岗区的政务系统悄悄上线了DeepSeek-R1全尺寸模型,群众办事时面对的不再是机械的问答机器人,而是一个能理解“我想办落户,但社保断了3个月怎么办”这类复杂问题的AI公务员。东莞紧随其后,把DeepSeek塞进了人工智能大模型中心,号称要让“企业办证速度跑赢奶茶外卖”。更狠的是广州,直接祭出DeepSeek-R1和V3 671B双模型组合
ElevenLabs 似乎无处不在。2025年 1 月,Lex Fridman在基辅对乌克兰总统Zelenskyy进行了长达三小时的采访,采访中使用了ElevenLabs 提供的AI英语、乌克兰语和俄语翻译,完美地保留了泽连斯基的语音和语调。这是AI消除语言障碍能力的一次引人注目的展示。
据外媒披露,人形机器人初创公司Figure AI正在洽谈新一轮15亿美元融资,公司估值高达395亿美元。Figure本轮融资预计将由Align Ventures和Parkway Venture Capital领投。
在国家儿童医学中心、北京儿童医院会诊中心,一位专家型AI儿科医生正式“上岗”,与13位儿科专家共同完成了一场疑难病例多学科会诊。记者从北京儿童医院了解到,这是全国首个AI儿科医生,有望辅助疑难罕见病诊疗,为儿科医疗服务带来新变革。
北京时间2月16日,马斯克宣布,将于太平洋时间周一晚上8点(北京时间2月18日12:00)发布Grok 3大模型,届时将进行现场演示。马斯克称Grok 3有非常强大的推理能力,在测试中的表现超越包括DeepSeek在内的所有已发布的AI大模型模型。5G与6G公众号(ID:angmobile)注意到马斯克表示Grok 3的某些能力之强“让人感到可怕”。
Applovin,这家来自美国加州的移动技术公司,在2024年创下了惊人的战绩。截至2024年12月31日,Applovin的股价约为491.8美元,较年初的38.78美元上涨了1166%,远超同期英伟达的171%涨幅。这样的涨幅使Applovin成为2024年美股表现最为出色的公司之一。
AI搜索“老大哥”Perplexity,刚刚也推出了自家的Deep Research——随便给个话题,就能生成有深度的研究报告。
“牛马们”要当心了。