AI资讯新闻榜单内容搜索-TAI

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

通用语言模型率先起跑，但通用视觉模型似乎迟到了一步。究其原因，语言中蕴含大量序列信息，能做更深入的推理；而视觉模型的输入内容更加多元、复杂，输出的任务要求多种多样，需要对物体在时间、空间上的连续性有完善的感知，传统的学习方法数据量大、经济属性上也不理性...... 还没有一套统一的算法来解决计算机对空间信息的理解。

来自主题: AI资讯

10404 点击 2024-12-16 10:48

高能干货分享，有关提示词工程的一切都在这份教程里

开源社区 DiamantAI 的主理人 Nir Diamant 发布了一套提示词工程技术库，系统性地教我们如何提高和 AI 的沟通技巧，更好发挥 AI 的潜能。

来自主题: AI资讯

5258 点击 2024-11-10 13:53

如日中天的AI大模型，也到了发展幻灭期！

近期 Gartner发布了《新兴技术成熟度曲线》，其中生成式 AI （GenAI）正式进入到了幻灭期。

来自主题: AI资讯

9111 点击 2024-09-18 09:20

Cosine获得250万美元种子轮融资，打造地表最强AI工程师Genie

Cosine打造了一个自主AI工程师Genie，可以代码重构、搭建功能以及修复Bug。Cosine联合创始人兼CEO Alistair Pullen表示：“Genie一开始被训练成像人类软件工程师（SWE）一样思考和行动。

来自主题: AI资讯

8208 点击 2024-08-16 10:19

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用，代码已开源。

来自主题: AI技术研报

7940 点击 2024-07-25 18:28

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

当前的视觉语言模型（VLM）主要通过 QA 问答形式进行性能评测，而缺乏对模型基础理解能力的评测，例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报

11459 点击 2024-07-13 20:01

8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功

最近，一个对标 GPT-4o 的开源实时语音多模态模型火了。

来自主题: AI资讯

11687 点击 2024-07-06 19:57

8人半年肝出开源版GPT-4o，0延迟演示全网沸腾！背后技术揭秘，人人免费用

GPT-4o或许还得等到今年秋季才对外开放。不过，由法国8人团队打造的原生多模态Moshi，已经实现了接近GPT-4o的水平，现场演示几乎0延迟，AI大佬纷纷转发。

来自主题: AI资讯

6598 点击 2024-07-04 16:20

“太令”司法大模型，提供罪名预测及量刑建议

大连理工大学信息检索研究室在始智AI wisemodel.cn开源社区发布了司法大模型--太令(TaiLing)1.0版，“太令”是专门为司法领域定制的大语言模型，其训练基础是庞大的通用中文语料库，并结合了裁判文书、合同、司法考试材料以及司法问答等专业司法数据进行深度训练。

来自主题: AI资讯

10171 点击 2024-03-28 11:17

吉他摇滚、电子音乐都能搞定，Meta开源音频生成新模型MAGNeT，非自回归7倍提速

在文本生成音频（或音乐）这个 AIGC 赛道，Meta 最近又有了新研究成果，而且开源了。前几日，在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中，Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT，一种在掩码生成序列建模方法。

来自主题: AI资讯

6143 点击 2024-02-07 21:52