
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3近年来,大语言模型(LLMs)取得了突破性进展,展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前,普遍的观点认为其成功依赖于自回归模型的「next token prediction」范式。
近年来,大语言模型(LLMs)取得了突破性进展,展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前,普遍的观点认为其成功依赖于自回归模型的「next token prediction」范式。
今天,Meta 公布了两项重磅研究,他们联合认知科学和神经科学顶尖研究机构巴斯克认知、大脑和语言中心(BCBL),采用非侵入式方法利用 AI 解码大脑语言、并进一步理解人类大脑如何形成语言。这两项突破性的研究成果也使得高级机器智能(Advanced Machine Intelligence, AMI)更加接近实现。
苹果最新论文揭露,或许它们看起来不会像机器人,或许它们将无处不在!苹果放出来一个台灯机器人以做展示,火遍reddit、X等平台。
DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。
本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn
自Perplexity官宣引入广告后,AI搜索再次成为关注焦点。而我们国内创业团队这边,也传来了新消息——Hika AI,一个仅由5人打造的AI搜索,上线不久竟能和国外当红顶流同台竞技了?!
春节假期未过半,DeepSeek 掀起的巨浪还在影响着所有和人工智能有关的领域。 今天一觉醒来, DeepSeek R1 模型已经正式加入 Azure AI Foundry 和 GitHub 模型目录,开发人员可以快速地进行实验、迭代,并将这款热门模型集成到他们的工作流程中。
就在刚刚,OpenAI深夜紧急发布了最新推理模型,o3-mini系列。一共包含三个版本:low、medium和high。其中o3-mini和o3-mini-high已经上线:
由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线,中南大学刘艺灏为第一作者
DeepSeek大爆出圈,现在连夜发布新模型——多模态Janus-Pro-7B,发布即开源。在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。