AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制

来自主题: AI技术研报
11362 点击    2025-03-07 14:15
谷歌创始人拉里·佩奇出山成立大模型公司,目标智能制造

谷歌创始人拉里·佩奇出山成立大模型公司,目标智能制造

谷歌创始人拉里·佩奇出山成立大模型公司,目标智能制造

谷歌联合创始人、全球第七富豪拉里・佩奇 (Larry Page) 已经成立了一个 AI 创业公司。据外媒 The Information 本周四报道,拉里・佩奇成立了名为 Dynatomics 的创业公司,旨在用人工智能颠覆制造业。

来自主题: AI资讯
10426 点击    2025-03-07 14:10
独家|获IDG数千万投资,米哈游逆熵AI研究负责人构建4D“数身智能”

独家|获IDG数千万投资,米哈游逆熵AI研究负责人构建4D“数身智能”

独家|获IDG数千万投资,米哈游逆熵AI研究负责人构建4D“数身智能”

据ZP独家获悉,半图科技(SemiGraph)近日完成了一轮数千万人民币的天使轮融资,全球知名投资机构IDG资本独家投资。据了解,半图科技正式成立于2024下半年,致力于通过创新的技术推动AI应用领域的变革,尤其聚焦于AI技术在游戏、内容、情感交互等领域的深度应用。此次融资的成功为公司3D动画大模型底层技术的突破提供了强有力的资金支持,并有望加速其产品和技术的市场落地。

来自主题: AI资讯
8844 点击    2025-03-07 13:04
打工人,被迷信AI的老板们坑惨了

打工人,被迷信AI的老板们坑惨了

打工人,被迷信AI的老板们坑惨了

只有享不了的福,\x0d\x0a没有受不了的罪。

来自主题: AI资讯
9001 点击    2025-03-07 12:17
Mistral发布了全世界最好的OCR,希望不是吹牛

Mistral发布了全世界最好的OCR,希望不是吹牛

Mistral发布了全世界最好的OCR,希望不是吹牛

今天,他们自称发布了世界上最好的 OCR API,它能够将复杂的 PDF 文件转换为文本文件,以便 AI 模型处理。现在,所有大模型的输入端格式都是文本,或者规整的、容易识别的文本文件,但这个世界上,还有很多文件是粗糙的,不规整的,难以识别的,它需要依赖强大的 OCR 功能才能转换为文本。

来自主题: AI资讯
11401 点击    2025-03-07 12:14
风格迁移重大突破!西湖大学等提出StyleStudio攻克「过拟合」难题 | CVPR 2025

风格迁移重大突破!西湖大学等提出StyleStudio攻克「过拟合」难题 | CVPR 2025

风格迁移重大突破!西湖大学等提出StyleStudio攻克「过拟合」难题 | CVPR 2025

StyleStudio能解决风格迁移中风格过拟合、文本对齐差和图像不稳定的问题,通过跨模态AdaIN技术融合文本和风格特征、用教师模型稳定布局、引入基于风格的无分类器引导,实现精准控制风格元素,提升生成图像的质量和稳定性,无需额外训练,使用门槛更低!

来自主题: AI技术研报
4578 点击    2025-03-07 11:04
开启空间智能问答新时代:Spatial-RAG框架来了

开启空间智能问答新时代:Spatial-RAG框架来了

开启空间智能问答新时代:Spatial-RAG框架来了

当涉及到空间推理任务时,LLMs 的表现却显得力不从心。空间推理不仅要求模型理解复杂的空间关系,还需要结合地理数据和语义信息,生成准确的回答。为了突破这一瓶颈,研究人员推出了 Spatial Retrieval-Augmented Generation (Spatial-RAG)—— 一个革命性的框架,旨在增强 LLMs 在空间推理任务中的能力。

来自主题: AI技术研报
8036 点击    2025-03-07 10:34
智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!

智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!

智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!

智源联手多所顶尖高校发布的多模态向量模型BGE-VL,重塑了AI检索领域的游戏规则。它凭借独创的MegaPairs合成数据技术,在图文检索、组合图像检索等多项任务中,横扫各大基准刷新SOTA。

来自主题: AI技术研报
6271 点击    2025-03-07 10:34
阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

仅用32B,就击败o1-mini追平671B满血版DeepSeek-R1!阿里深夜重磅发布的QwQ-32B,再次让全球开发者陷入狂欢:消费级显卡就能跑,还一下子干到推理模型天花板!

来自主题: AI技术研报
7491 点击    2025-03-07 10:28