DeepSeek V4爆春节登场!四大杀招突袭全球编程王座,Claude危
DeepSeek V4爆春节登场!四大杀招突袭全球编程王座,Claude危Information爆料称,DeepSeek将计划在2月中旬,也正是春节前后,正式发布下一代V4模型。据称,DeepSeek V4编程实力可以赶超Claude、GPT系列等顶尖闭源模型。
Information爆料称,DeepSeek将计划在2月中旬,也正是春节前后,正式发布下一代V4模型。据称,DeepSeek V4编程实力可以赶超Claude、GPT系列等顶尖闭源模型。
CaveAgent的核心思想很简单:与其让LLM费力地去“读”数据的文本快照,不如给它一个如果不手动重启、变量就永远“活着”的 Jupyter Kernel。这项由香港科技大学(HKUST)领衔的研究,为我们展示了一种“Code as Action, State as Memory”的全新可能性。它解决了所有开发过复杂Agent的工程师最头疼的多轮对话中的“失忆”与“漂移”问题。
Agent 的工具可以 “以终为始”。
Transformer 已经改变了世界,但也并非完美,依然还是有竞争者,比如线性递归(Linear Recurrences)或状态空间模型(SSM)。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。
新年第一弹,OpenAI研发副总裁Jerry Tworek官宣离职,这位七年老兵给出的理由让人细思恐极:想做在OpenAI做不了的研究。从Dario Amodei出走创立Anthropic,到Ilya政变后离开,再到安全团队负责人摔门而出——OpenAI的核心大脑们正在以惊人的速度流失。
文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。
今日,三星在CES 2026“First Look”活动上发布了AI家居“全家桶”,三星将其比喻为“AI生活伴侣”,分为娱乐伴侣、家庭伴侣、健康伴侣三部分。娱乐伴侣方面,三星发布了130英寸Micro RGB电视、电视AI技术Vision AI Companion(VAC)、wifi音响Music Studio 5和Music Studio 7
今年我比较喜欢的 AI 产品中,一个是 Google 旗下的 NotebookLM,我觉得它的价值还没有真正体现出来。还有一个是国内团队做的 Kuse,其团队在没融资的情况下,3 个月做到了差不多 1000 万美金的 ARR。
香港中文大学提出了一个全新的算法框架RankSEG,用于提升语义分割任务的性能。传统方法在预测阶段使用threshold或argmax生成掩码,但这种方法并非最优。RankSEG无需重新训练模型,仅需在推理阶段增加三行代码,即可显著提高Dice或IoU等分割指标。
Notion 创始人 Ivan Zhao 在最新的博文中提到,我们正处于 AI 的「水车阶段」,还在试图把新时代的引擎,硬塞进旧时代的马车里。 原文🔗 https://www.notion.com/b