AI技术研报-这里有最前沿的人工智能技术解读

Llama 2打败GPT-4！Meta让大模型自我奖励自迭代，再证合成数据是LLM终局

AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法，让Llama2一举击败GPT-4 0613、Claude 2、Gemini Pro领先模型。

来自主题: AI技术研报

8611 点击 2024-01-22 10:34

清华、小米、华为、 vivo、理想等多机构联合综述，首提个人LLM智能体、划分5级智能水平

IPA 已经成了现代智能手机不可或缺的标配，近期的一篇综述论文更是认为「个人 LLM 智能体会成为 AI 时代个人计算的主要软件范式」。

来自主题: AI技术研报

7969 点击 2024-01-21 14:32

Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强？这个框架一测便知

AI 视频生成，是最近最热门的领域之一。各个高校实验室、互联网巨头 AI Lab、创业公司纷纷加入了 AI 视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等视频生成模型的发布，更是让人眼前一亮。

来自主题: AI技术研报

7791 点击 2024-01-21 14:19

普林斯顿博士生高天宇指令微调进展速览：数据、算法和评估

自 ChatGPT 等大型语言模型推出以来，为了提升模型效果，各种指令微调方法陆续被提出。本文中，普林斯顿博士生、陈丹琦学生高天宇汇总了指令微调领域的进展，包括数据、算法和评估等。

来自主题: AI技术研报

7693 点击 2024-01-21 14:14

Stability AI杀回来了：视频生成新Demo效果惊人，网友：一致性超群

Stable Diffusion要王者归来了？

来自主题: AI技术研报

3836 点击 2024-01-21 14:08

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。

来自主题: AI技术研报

9875 点击 2024-01-20 15:16

一张照片，为深度学习巨头们定制人像图片

主题驱动的文本到图像生成，通常需要在多张包含该主题（如人物、风格）的数据集上进行训练，这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等，但这类方案因为需要更新整个网络或较长时间的定制化训练，往往无法很有效地兼容社区已有的模型，并无法在真实场景中快速且低成本应用。

来自主题: AI技术研报

10436 点击 2024-01-20 14:53

最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发

Mixtral 8x7B模型开源后，AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B，在主流基准测试中击败了Mixtral Instruct。

来自主题: AI技术研报

8491 点击 2024-01-19 14:25

小扎砸数百亿美元猛攻开源AGI！狂掷60万块H100，爆50倍GPT-4算力

今天，小扎正式宣战「开源AGI」！下一代大模型Llama 3正在训练，年底将拥有35万块H100，届时算力总和达60万块H100。为了追赶OpenAI，成立十年的FAIR团队纳入GenAI，全力奔赴AGI。

来自主题: AI技术研报

7077 点击 2024-01-19 14:16

Rewind 的 PLG 增长之路，以及如何在 A 轮就得到 3.5 亿美元的估值？

大模型出现后，AI 实现全能个人助理的梦想似乎近在眼前，也有不少公司推出了相应的硬件/软件，比如此前我们介绍的 AI Pin 以及 Rewind。

来自主题: AI技术研报

7983 点击 2024-01-19 10:39

一篇文章搞懂LangChain

现在，为了实现相同的目标，我们有两个最著名的库，即 Haystack 和 LangChain，它们可以帮助我们创建基于大语言模型的端到端应用程序或流程。

来自主题: AI技术研报

7641 点击 2024-01-18 18:33

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

Lightning Attention-2 是一种新型的线性注意力机制，让长序列的训练和推理成本与 1K 序列长度的一致。

来自主题: AI技术研报

3259 点击 2024-01-18 18:27

三个臭皮匠顶个诸葛亮？可能是真的，已证实混合多个小模型性能比肩GPT3.5

对模型参数量的迷信、执念也许可以放下了，混合多个小模型也是未来构造对话型 AI 的一个光明的方向。

来自主题: AI技术研报

8268 点击 2024-01-18 18:23

模型越大，性能越好？苹果自回归视觉模型AIM：没错

视觉模型，同样遵循「参数越多性能越强」的规律？刚刚，一项来自苹果公司的研究验证了这个猜想。

来自主题: AI技术研报

9947 点击 2024-01-18 18:19

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

还在苦苦寻找开源的机器人大模型？试试RoboFlamingo！

来自主题: AI技术研报

4393 点击 2024-01-17 14:03

GitHub本月最佳：使用电脑的新方式，已经获得3万7千星

Open Interpreter 允许LLM在您的计算机上运行代码来完成任务。这可能是人类使用电脑的新方式，一句人话，电脑开始帮人类完成任务。

来自主题: AI技术研报

4877 点击 2024-01-16 14:40

微软TaskWeaver开源框架：携手数据分析与行业定制，打造顶级Agent解决方案

TaskWeaver 能够将用户的自然语言请求巧妙地转化为可执行代码，并支持丰富的数据结构、动态插件选择以及专业领域适应的规划过程。

来自主题: AI技术研报

3823 点击 2024-01-16 14:22

开源模型新纪录：超越Mixtral 8x7B Instruct的模型来了

从 Llama、Llama 2 到 Mixtral 8x7B，开源模型的性能记录一直在被刷新。由于 Mistral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5，因此它也被认为是一种「非常接近 GPT-4」的开源选项。

来自主题: AI技术研报

7408 点击 2024-01-16 14:18

性能大涨20%！中科大「状态序列频域预测」方法：表征学习样本效率max｜NeurIPS 2023 Spotlight

SPF算法是一种基于状态序列频域预测的表征学习方法，利用状态序列的频域分布来显式提取状态序列数据中的趋势性和规律性信息，从而辅助表征高效地提取到长期未来信息。

来自主题: AI技术研报

8980 点击 2024-01-16 10:59

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

复旦团队进一步挖掘 RLHF 的潜力，重点关注奖励模型（Reward Model）在面对实际应用挑战时的表现和优化途径。

来自主题: AI技术研报

3832 点击 2024-01-16 10:16

Transformer的无限之路：位置编码视角下的长度外推综述

在自然语言处理（Natural Language Processing，NLP）领域，Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。

来自主题: AI技术研报

9495 点击 2024-01-16 10:13

Poe 获得 a16z 新一轮 7500 万美元融资，主要用于支付平台上的 Bot 创作者

刚刚，Quora CEO Adam D'Angelo 宣布 Quora 从 a16Z 获得 7500 万美元！Angelo 指出，他们希望通过这些目标来加速 AI 的主流应用，并为社会带来包括提高知识获取能力、民主化创意表达和加速经济增长在内的多种好处，这笔投资专门用于推动其 AI 聊天平台 Poe 的增长。

来自主题: AI技术研报

9967 点击 2024-01-10 18:51

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA｜AAAI24

如何从一段视频中找出感兴趣的片段？时序行为检测（Temporal Action Localization，TAL）是一种常用方法。过去TAL中的建模是片段甚至实例级的，而现在只要视频里的一帧就能实现，效果媲美全监督。

来自主题: AI技术研报

8212 点击 2024-01-08 14:33

告别逐一标注，一个提示实现批量图片分割，高效又准确

仅需一个任务描述，即可一键分割所有图片！

来自主题: AI技术研报

7963 点击 2024-01-08 14:20

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

Vista-LLaMA 在处理长视频内容方面的显著优势，为视频分析领域带来了新的解决框架。

来自主题: AI技术研报

3576 点击 2024-01-08 14:17

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制

在大型语言模型（LLM）的世界中，处理多轮对话一直是一个挑战。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM，能够在不牺牲推理速度和生成效果的前提下，可实现多轮对话总共 400 万个 token 的流式输入，22.2 倍的推理速度提升。

来自主题: AI技术研报

7050 点击 2024-01-08 14:02

LangChain - RAG: 做 RAG 的天选打工人，拿这几个指标找老板加薪！

做所有的工作之前，想好如何评估结果、制定好北极星指标至关重要!!! Ragas把 RAG 系统的评估指标拆分为三个维度如下，这可不是 Benz 的标...

来自主题: AI技术研报

8948 点击 2024-01-08 10:37

行业动态 | 2023年十大人工智能（LLM）必读论文

2023 年，是机器学习和人工智能发展最为迅速的一年，这里分享 10 篇最值得关注的论文。

来自主题: AI技术研报

9316 点击 2024-01-07 14:19

看见这张图没有，你就照着画：谷歌图像生成AI掌握多模态指令

谷歌新设计的一种图像生成模型已经能做到这一点了！通过引入指令微调技术，多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像，效果堪比 PS 大神抓着你的手助你 P 图。

来自主题: AI技术研报

3612 点击 2024-01-06 16:42

模型A：幸亏有你，我才不得0分，模型B：俺也一样

琳琅满目的乐高积木，通过一块又一块的叠加，可以创造出各种栩栩如生的人物、景观等，不同的乐高作品相互组合，又能为爱好者带来新的创意。

来自主题: AI技术研报

8883 点击 2024-01-06 16:37

AI技术研报-这里有最前沿的人工智能技术解读

Llama 2打败GPT-4！Meta让大模型自我奖励自迭代，再证合成数据是LLM终局

清华、小米、华为、 vivo、理想等多机构联合综述，首提个人LLM智能体、划分5级智能水平

Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强？这个框架一测便知

普林斯顿博士生高天宇指令微调进展速览：数据、算法和评估

Stability AI杀回来了：视频生成新Demo效果惊人，网友：一致性超群

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

一张照片，为深度学习巨头们定制人像图片

最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发

小扎砸数百亿美元猛攻开源AGI！狂掷60万块H100，爆50倍GPT-4算力

Rewind 的 PLG 增长之路，以及如何在 A 轮就得到 3.5 亿美元的估值？

一篇文章搞懂LangChain

​新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

三个臭皮匠顶个诸葛亮？可能是真的，已证实混合多个小模型性能比肩GPT3.5

模型越大，性能越好？苹果自回归视觉模型AIM：没错

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

GitHub本月最佳：使用电脑的新方式 ，已经获得3万7千星

微软TaskWeaver开源框架：携手数据分析与行业定制，打造顶级Agent解决方案

开源模型新纪录：超越Mixtral 8x7B Instruct的模型来了

性能大涨20%！中科大「状态序列频域预测」方法：表征学习样本效率max｜NeurIPS 2023 Spotlight

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

Transformer的无限之路：位置编码视角下的长度外推综述

Poe 获得 a16z 新一轮 7500 万美元融资，主要用于支付平台上的 Bot 创作者

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA｜AAAI24

告别逐一标注，一个提示实现批量图片分割，高效又准确

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制​

LangChain - RAG: 做 RAG 的天选打工人，拿这几个指标找老板加薪！

行业动态 | 2023年十大人工智能（LLM）必读论文

看见这张图没有，你就照着画：谷歌图像生成AI掌握多模态指令

模型A：幸亏有你，我才不得0分，模型B：俺也一样

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

GitHub本月最佳：使用电脑的新方式，已经获得3万7千星

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制