AI资讯新闻榜单内容搜索-Ava

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Ava
a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道

a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道

a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道

过去几年,AI 已经能生成逼真的图片、视频和声音,悄然通过视觉和听觉的图灵测试。但 2025 年最令人激动的突破之一,毫无疑问将是把这些方案集于一体的 AI 数字人(Al Avatar)。

来自主题: AI资讯
7928 点击    2025-04-12 11:50
首个AI投资人来了!10万美金投资AI电商代理,仅3分钟完成签约

首个AI投资人来了!10万美金投资AI电商代理,仅3分钟完成签约

首个AI投资人来了!10万美金投资AI电商代理,仅3分钟完成签约

这个号称世界上第一个AI天使投资人的No Cap,由Jeff wilson、Alexander Nevedovsky 和 Slava Solonitsyn打造,并在最近拿到了YC的投资。No Cap号称是通过一个“No Cap Mafia”社区训练出来的。在这个社区里,No Cap会接受很多公司创始人的指导,目前已经有超过60位创始人(他们都是YC的校友)参与其中。

来自主题: AI资讯
7943 点击    2025-03-26 16:37
给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报
6440 点击    2025-03-24 16:01
速递|AvatarOS获种子轮700万美元,打造AI驱动的3D高端虚拟形象

速递|AvatarOS获种子轮700万美元,打造AI驱动的3D高端虚拟形象

速递|AvatarOS获种子轮700万美元,打造AI驱动的3D高端虚拟形象

几年前,由于元宇宙的热潮,几家专注于数字虚拟人的初创公司应运而生。虽然这股热潮已经消退,但生成式人工智能为虚拟人注入了新的活力,因为创建不同的虚拟身份变得更加容易。

来自主题: AI资讯
8237 点击    2025-03-12 10:00
ICLR 2025|南洋理工大学AvatarGO,探索4D人与物体交互生成新方法

ICLR 2025|南洋理工大学AvatarGO,探索4D人与物体交互生成新方法

ICLR 2025|南洋理工大学AvatarGO,探索4D人与物体交互生成新方法

近年来,随着扩散模型和 Transformer 技术的快速发展,4D 人体 - 物体交互(HOI)的生成与驱动效果取得了显著进展。然而,当前主流方法仍依赖 SMPL [1] 这一人体先验模型来生成动作。

来自主题: AI技术研报
8331 点击    2025-02-23 16:39
2025年将成Python主导AI领域的最后一年:Java强势入侵Python腹地

2025年将成Python主导AI领域的最后一年:Java强势入侵Python腹地

2025年将成Python主导AI领域的最后一年:Java强势入侵Python腹地

Java,这头在企业应用领域深耕 30 年的“猛兽”,如今正虎视眈眈地瞄准 AI 这块 Python 的“固有领地”。尤其是在企业级 AI 应用方面,Python 的优势似乎正在逐渐减弱。一家大型 Java 平台公司的技术负责人甚至预测,2025 年将是 Python 在 AI 领域占据主导地位的最后一年。

来自主题: AI资讯
6917 点击    2025-02-10 20:28
北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

近日,北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目,推出小尺寸简易视频理解框架 TinyLLaVA-Video,其模型,代码以及训练数据全部开源。在计算资源需求显著降低的前提下,训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报
6929 点击    2025-02-10 16:54
LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens,并将其嵌入大语言模型(LLM)上下文来实现视觉信息理解。

来自主题: AI技术研报
2836 点击    2025-02-06 15:26
小身板大能量:树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

小身板大能量:树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

小身板大能量:树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

你是否想过在自己的设备上运行自己的大型语言模型(LLMs)或视觉语言模型(VLMs)?你可能有过这样的想法,但是一想到要从头开始设置、管理环境、下载正确的模型权重,以及你的设备是否能处理这些模型的不确定性,你可能就犹豫了。

来自主题: AI技术研报
7592 点击    2024-12-30 16:53
我扒出了Gemini 2.0超实时多模态幕后的黑科技,第六代TPU芯片Trillium!

我扒出了Gemini 2.0超实时多模态幕后的黑科技,第六代TPU芯片Trillium!

我扒出了Gemini 2.0超实时多模态幕后的黑科技,第六代TPU芯片Trillium!

OpenAI 放出了 o1 Pro、GPT-4o 高级语音、GPTCanavas,就跟孔雀开屏一样 ~ 谷歌最近的大动作是发布了 Gemini 2.0 嘛!2.0 比 1.5 版本快一倍,而且是原生的多模态大模型,能输入和生成语言、声音、图片、视频等。

来自主题: AI资讯
7011 点击    2024-12-13 17:12