六个思维模型驾驭AI
六个思维模型驾驭AI前阵子,我那年过半百的老爸也开始问我这个问题了。别以为AI只是个高级玩具,它跟以前我们用的所有工具都不一样。想想以前的计算机,让我们算数更快;互联网,让我们查资料更快。它们都是工具,帮我们提高效率。
前阵子,我那年过半百的老爸也开始问我这个问题了。别以为AI只是个高级玩具,它跟以前我们用的所有工具都不一样。想想以前的计算机,让我们算数更快;互联网,让我们查资料更快。它们都是工具,帮我们提高效率。
在科技界,快速崛起和巨额交易总是备受关注。本周,MongoDB 宣布以 2.2 亿美元的价格收购 Voyage AI——一家刚成立 17 个月、在嵌入(embedding)和重排序(reranking)模型领域处于行业领先地位的 AI 初创公司。
推理黑马出世,仅以5%参数量撼动AI圈。360、北大团队研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相,32B参数,能够匹敌DeepSeek-R1-671B巨兽。
DeepSeek开源第二弹如期而至。这一次,他们把MoE模型内核库开源了,支持FP8专为Hopper GPU设计,低延迟超高速训练推理。
当地时间 2 月 25 日,Anthropic 正式发布了 Claude 3.7 Sonnet,“这是迄今为止我们最智能的模型,也是市场上首个混合推理模型。”Anthropic 官方表示。
高调亮相的世界首个「AI CUDA工程师」,宣称能让模型训练速度飙升100倍,如今却上演了一场「作弊」闹剧。OpenAI研究员用o3-mini,11秒便发现了内核代码有bug!
近日,Meta等机构发表的论文介绍了一种通过进化算法构造高质量数据集的方法:拒绝指令偏好(RIP),得到了Yann LeCun的转赞。相比未经过滤的数据,使用RIP构建的数据集让模型在多个基准测试中都实现了显著提升。
DeepSeek开源第二弹如期而至。这一次,他们把MoE训推EP通信库DeepEP开源了,支持FP8专为Hopper GPU设计,低延迟超高速训练推理。
只刷逻辑益智题,竟能让 AI 数学竞赛水平大幅提升?
还在惊叹预言家的神奇?如今LLM也掌握了预测未来的「超能力」!研究人员通过自我博弈和直接偏好优化,让LLM摆脱人工数据依赖,大幅提升预测能力。