AI资讯新闻榜单内容搜索-Vide

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: Vide
历经2个月,我的第一款真正意义上的AI产品上线

历经2个月,我的第一款真正意义上的AI产品上线

历经2个月,我的第一款真正意义上的AI产品上线

大家好,这两个月我完成了一款产品——Videa。虽然过去一年,我做了很多东西,但是部分是套壳,部分是把别人的想法做出来,真正我一直想做的,其实是一款借助AI创作短视频的产品。现在,我把它做出来了。

来自主题: AI资讯
5153 点击    2025-06-05 16:20
单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满

单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满

单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满

智源研究院发布开源模型Video-XL-2,显著提升长视频理解能力。该模型在效果、处理长度与速度上全面优化,支持单卡处理万帧视频,编码2048帧仅需12秒。

来自主题: AI技术研报
5861 点击    2025-06-03 17:24
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

来自主题: AI技术研报
5755 点击    2025-06-03 14:44
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报
6461 点击    2025-05-30 17:30
两个斯坦福黄毛小伙子要来拯救辅导作业鸡飞狗跳的家长们

两个斯坦福黄毛小伙子要来拯救辅导作业鸡飞狗跳的家长们

两个斯坦福黄毛小伙子要来拯救辅导作业鸡飞狗跳的家长们

就是这两个黄毛小伙子,他们试图建立新的教育体系。 他们为学生创建了一种制作自定义视频教程的方法,一键生成所有科目的讲解视频,比真人老师讲的更好更仔细,就像可汗学院一样,并允许他们像与真正的导师/老师交谈一样进行互动,让每位学生都有私教老师。

来自主题: AI资讯
8432 点击    2025-05-30 16:49
CVPR 2025 | SketchVideo让手绘动起来,视频生成进入线稿时代

CVPR 2025 | SketchVideo让手绘动起来,视频生成进入线稿时代

CVPR 2025 | SketchVideo让手绘动起来,视频生成进入线稿时代

近年来,生成式人工智能的快速发展,在文本和图像生成领域都取得了很大的成功。

来自主题: AI技术研报
5831 点击    2025-05-18 16:01
OpenEvidence,医疗领域诞生了第一个广告模式 Chatbot

OpenEvidence,医疗领域诞生了第一个广告模式 Chatbot

OpenEvidence,医疗领域诞生了第一个广告模式 Chatbot

在上一篇研究图谱中,我们指出医疗领域很可能是 Vertical Agent 最先落地的领域,其中最有代表性的公司之一是 OpenEvidence,一款专为医生设计的 AI 专业诊断 Copilot。

来自主题: AI商业项目
7249 点击    2025-05-09 16:45
终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道

最近在看 Agent 方向的论文和产品,已经被各种进展看花了眼。但我发现,真正能超越 demo,能在 B 端场景扎实落地的却寥寥无几。

来自主题: AI技术研报
7218 点击    2025-04-28 16:40
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,展现了强大的推理能力,并且全部代码和数据集均已开源。

来自主题: AI技术研报
7870 点击    2025-04-16 14:42