AI资讯新闻榜单内容搜索-Ai框架

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Ai框架

ACL 2024 | 提升大模型持续学习性能，哈工大、度小满提出共享注意力框架SAPT

ACL 2024 | 提升大模型持续学习性能，哈工大、度小满提出共享注意力框架SAPT

ACL 2024 | 提升大模型持续学习性能，哈工大、度小满提出共享注意力框架SAPT

在大模型实际部署落地的过程中，如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战，分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时，会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。

来自主题: AI技术研报

10032 点击 2024-05-29 16:18

只需单卡RTX 3090，低比特量化训练就能实现LLaMA-3 8B全参微调

只需单卡RTX 3090，低比特量化训练就能实现LLaMA-3 8B全参微调

只需单卡RTX 3090，低比特量化训练就能实现LLaMA-3 8B全参微调

本文由GreenBit.AI团队撰写，团队的核心成员来自德国哈索·普拉特纳计算机系统工程院开源技术小组。我们致力于推动开源社区的发展，倡导可持续的机器学习理念。我们的目标是通过提供更具成本效益的解决方案，使人工智能技术在环境和社会层面产生积极影响。

来自主题: AI技术研报

9888 点击 2024-05-25 18:15

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

既能像 Transformer 一样并行训练，推理时内存需求又不随 token 数线性递增，长上下文又有新思路了？

来自主题: AI技术研报

8620 点击 2024-05-25 18:07

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

以 OpenAI 的 GPT 系列模型为代表的大语言模型（LLM）掀起了新一轮 AI 应用浪潮，但是 LLM 推理的高昂成本一直困扰着业务团队。

来自主题: AI技术研报

11179 点击 2024-05-24 20:58

替代MLP的KAN，被开源项目扩展到卷积了

替代MLP的KAN，被开源项目扩展到卷积了

替代MLP的KAN，被开源项目扩展到卷积了

本月初，来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代方法 ——KAN。

来自主题: AI资讯

11130 点击 2024-05-19 16:25

引爆整个AI圈的神经网络架构KAN，究竟是啥？

引爆整个AI圈的神经网络架构KAN，究竟是啥？

引爆整个AI圈的神经网络架构KAN，究竟是啥？

最近一周KAN的热度逐渐褪去，正好静下心来仔细学习KAN的原理，收获颇多。

来自主题: AI技术研报

11452 点击 2024-05-17 12:57

只需百行代码，让H100提速30%，斯坦福开源全新AI加速框架

只需百行代码，让H100提速30%，斯坦福开源全新AI加速框架

只需百行代码，让H100提速30%，斯坦福开源全新AI加速框架

提高 GPU 利用率，就是这么简单。

来自主题: AI技术研报

11157 点击 2024-05-13 17:15

GPT-4 提示词冠军如何写 prompt：CO-STAR 框架、文本分段、系统提示

GPT-4 提示词冠军如何写 prompt：CO-STAR 框架、文本分段、系统提示

GPT-4 提示词冠军如何写 prompt：CO-STAR 框架、文本分段、系统提示

当下，如果我们希望通过 ChatGPT 得到有用的信息，就必须知道如何向它发出清晰的指令。为了指导用户写一个好的 prompt，OpenAI 官方曾上线了 Prompt engineering，谷歌和微软也有类似的动作。

来自主题: AI资讯

10206 点击 2024-05-13 09:31

AI生成3D主题乐园，角色建筑批量生成，风格保持一致 | SIGGRAPH 2024

AI生成3D主题乐园，角色建筑批量生成，风格保持一致 | SIGGRAPH 2024

AI生成3D主题乐园，角色建筑批量生成，风格保持一致 | SIGGRAPH 2024

最少只需1个3D样例，即可生成3D主题乐园。

来自主题: AI技术研报

11246 点击 2024-05-12 12:56

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构——

来自主题: AI技术研报

6821 点击 2024-05-12 12:51

上一页当前第9页,共13页下一页