搜索
指代分割 (Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。
前不久,斯坦福大学教授吴恩达在演讲中提到了智能体的巨大潜力,这也引起了众多讨论。其中,吴恩达谈到基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。这表明,将目光局限于大模型不一定可取,智能体或许会比其所用的基础模型更加优秀。
昨天,黄仁勋亲自为 OpenAI 送来了全球第一台 Nvidia DGX H200 超级计算机,三人合影(老黄、奥特曼、Greg Brockman )引得大家津津乐道。
随着 AI 向 AGI(通用人工智能)的圣杯方向加速发展,大模型与机器人的结合是必然趋势。数十年来,单一用途机器人市场已趋于饱和,AI 通用机器人的巨大潜力急待开垦。
4 月 26 日,科大讯飞发布讯飞星火大模型 V3.5 的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习,还能够结合各种行业场景知识给出专业、准确回答。
奔向通用人工智能,大模型又迈出一大步。
开源最近成了 AI 圈绕不开的高频热门词汇。
今年3月,一段两分半钟的视频点击量破百万。没有太多花哨的情节,白色背景前,一个人形机器人遵照人类指令,递给对方苹果,归置好桌上的杯子和餐碟,并解释这样做的原因。
大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。语料规模和质量对大模型性能以及应用的深度、广度有着至关重要的影响。
自Alpha Go起至今,AI已在资本市场浮沉近10年。围绕这一概念展开的资本游戏亦愈发扑朔迷离。
微信,作为一款历时 13 年,至今月活超 13 亿的国民级产品,一直为人们所期待在 AI 时代下会有什么样的新动作。今天,特工女巫将为大家带来三款腾讯微信系的 AI 产品,一起来看看吧。
最近,一家名为 Reka 的初创公司发布了一款多模态语言模型——Reka Core,这是他们自2022 年成立以来第三款模型。
基于大模型知识库的问答类应用早已在全球溢满,不再成为新鲜事。AI Agent项目成为新的锚点,承载着创业者、投资人、从业者对未来应用的厚望。
皮衣老黄亲自上门送货!OpenAI收到世界上第一台DGX H200超算。
支付宝被曝推出了新的AI产品!
进入2024,大模型的风向变了。 当初“百模大战”时,只要简单粗暴拿个Demo搞MaaS(模型即服务),也就是让用户直接和大模型交互就足以上牌桌。
是的,就是在一场《街头霸王》游戏现场PK中,发生了这样的名场面。
从Llama 3到Phi-3,蹭着开源热乎劲儿,苹果也来搞事情了。
刚刚,世界首台DGX H200,由老黄亲自交付给OpenAI!
就在刚刚,拥有128位专家和4800亿参数的Arctic,成功登上了迄今最大开源MoE模型的宝座。
大模型,已然卷入机器人领域。
4 月 24 日,李志飞创办的出门问问港股上市,成了国内 AIGC 第一股。
近期,多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。
Snowflake 发布高「企业智能」模型 Arctic,专注于企业内部应用。
今天,黄仁勋又来送 AI 芯片了,还是超强悍的那种。
Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。
「AI 手机」到底是什么?这个问题至今还没有结论。
最近,Meta 推出了 Llama 3,为开源大模型树立了新的标杆。
在人工智能的前沿领域,大语言模型(Large Language Models,LLMs)由于其强大的能力正吸引着全球研究者的目光。在 LLMs 的研发流程中,预训练阶段占据着举足轻重的地位,它不仅消耗了大量的计算资源,还蕴含着许多尚未揭示的秘密。