微软再放LLM量化大招!原生4bit量化,成本暴减,性能几乎0损失
微软再放LLM量化大招!原生4bit量化,成本暴减,性能几乎0损失原生1bit大模型BitNet b1.58 2B4T再升级!微软公布BitNet v2,性能几乎0损失,而占用内存和计算成本显著降低。
原生1bit大模型BitNet b1.58 2B4T再升级!微软公布BitNet v2,性能几乎0损失,而占用内存和计算成本显著降低。
推理模型常常表现出类似自我反思的行为,但问题是——这些行为是否真的能有效探索新策略呢?
嗨大家好!假期愉快! 5月29日,黑森林实验室发布了 FLUX.1 Kontext,目标是通过一个统一的框架处理多种图像任务,解决现有模型在多轮编辑中的一些关键痛点。
近年来,大语言模型(LLMs)的能力突飞猛进,但随之而来的隐私风险也逐渐浮出水面。
几天前,没有预热,没有发布会,DeepSeek 低调上传了 DeepSeek R1(0528)的更新。
不久前,GPT-4o 的最新图像风格化与编辑能力横空出世,用吉卜力等风格生成的效果令人惊艳,也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。
你有没有想过,企业财务管理这个看似传统的领域,正在经历一场彻底的技术革命?
「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」
Chris Pedregal是Granola的联合创始人兼首席执行官。Granola是一款由AI驱动的智能会议记录工具,正在重新定义知识工作者的工作方式,帮助用户更高效地记录、组织和调用对话中的关键信息。本文是Invest Like the Best主持人Patrick O'Shaughnessy与Chris Pedregal的访谈实录,访谈播客于2025年2月播出。
如何让CLIP模型更关注细粒度特征学习,避免“近视”?360人工智能研究团队提出了FG-CLIP,可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。