仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。
智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。
前端UI的工作,被谷歌AI一夜干没了。 就在最新能力展示中,Gemini 3.0 Pro居然自己“捏”出了一个macOS。
扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。
8 月榜单,最值得关注的变化是 Lovart 的访问量上升,8 月访问量上涨了 68.08% 至 323w,进入榜单。Lovart,读者想必已经熟悉,是奇点星宇的另一款 AI 视觉类产品,其产品核心设计为画布+对话框+编辑工具箱,也就是用户指导 AI 干活,
2023年Meta推出SAM,随后SAM 2扩展到视频分割,性能再度突破。近日,SAM 3悄悄现身ICLR 2026盲审论文,带来全新范式——「基于概念的分割」(Segment Anything with Concepts),这预示着视觉AI正从「看见」迈向真正的「理解」。
LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及,明显缩小了与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。
英伟达面向个人的AI超算DGX Spark已上市!128GB统一内存(常规系统内存+GPU显存),加上允许将两台DGX Spark连起来,直接可以跑起来405B的大模型(FP4精度),而这已经逼近目前开源的最大模型!如此恐怖的实力却格外安静优雅,大小与Mac mini相仿,3999美元带回家!
你今天的工作,或许并不是真正的工作。这句耸人听闻的言论出自奥特曼与Rowan Cheung最新的采访。在这场长达30分钟的对谈里,除了自己对AI与工作的思考,奥特曼还分享了GPT-6的进展、ChatGPT是否会成为美国版微信、AGI的设想变化、AI未来的交互模式,以及自己被恶搞成Sora热梗的感受。
人类遗忘的难题解法,被GPT-5 Pro重新找出来了!这事儿聚焦于埃尔德什问题#339,这是著名数学家保罗・埃尔德什提出或转述的近千道问题之一,收录于erdosproblems.com网站。该网站记录了每道题目的当前状态,其中约三分之一已解决,大部分仍待解。
谷歌下一代旗舰模型Gemini 3未发布便已悄然走红!原因很简单:强,实在是太强了。在国外社交媒体平台𝕏上,一大波网友激动地分享了Gemini 3的内测结果——从曝光的这些案例来看,Gemini 3尤为擅长前端、SVG矢量图生成,而且多模态能力变得更强。