AI资讯新闻榜单内容搜索-VAD

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: VAD
ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式

ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式

ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式

针对这一问题,中国传媒大学媒体融合与传播国家重点实验室的吴晓雨教授团队于 ICLR 2026 发表论文《Language-guided Open-world Video Anomaly Detection under Weak Supervision》,直面 VAD 领域的核心问题 —— 什么是异常?

来自主题: AI技术研报
7320 点击    2026-02-14 10:03
小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统

小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统

小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统

小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统 FireRedChat,自研流式 pVAD 与 EoT 让语音交互更加自然,首发级联与半级联两套实现,端到端时延逼近工业级应用。

来自主题: AI技术研报
8581 点击    2025-10-03 11:44
ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA

ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA

ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA

现有视频异常检测(Video Anomaly Detection, VAD)方法中,有监督方法依赖大量领域内训练数据,对未见过的异常场景泛化能力薄弱;而无需训练的方法虽借助大语言模型(LLMs)的世界知识实现检测,但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。

来自主题: AI技术研报
7275 点击    2025-07-21 10:28
深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

OpenAI的实时API支持低延迟、双向音频流,使得多模态AI应用(如语音对话Agent)得以实现。它通过WebSocket连接管理对话状态,并提供短语结束检测和语音活动检测(VAD)功能,大大简化了实时语音应用的开发。

来自主题: AI资讯
9839 点击    2024-12-13 17:05
前Google负责人打造首款AI音频计算机,超2000万美元融资,是创新突破还是重蹈覆辙?

前Google负责人打造首款AI音频计算机,超2000万美元融资,是创新突破还是重蹈覆辙?

前Google负责人打造首款AI音频计算机,超2000万美元融资,是创新突破还是重蹈覆辙?

AI硬件市场虽然目前市场规模相对较小,但增长速度较快,未来发展潜力巨大。目前市面上已经出现多款可穿戴性AI硬件设备,包括Humane推出的Ai Pin和Rabbite R1等。不仅各类初创公司涌现,多家巨型科技公司也布局其中。

来自主题: AI资讯
8346 点击    2024-09-28 17:20
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学

突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学

突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学

大模型当上福尔摩斯,学会对视频异常进行检测了。 来自华中科技大学、百度、密歇根大学的研究团队,提出了一种可解释性的视频异常检测框架,名为Holmes-VAD。

来自主题: AI技术研报
7647 点击    2024-07-05 01:04