AI资讯新闻榜单内容搜索-训练

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 训练

重磅：用DSPy写最佳推理轨迹搜索DOTS，让LLM能动态推理 |乔治梅森大学和腾讯AI最新

重磅：用DSPy写最佳推理轨迹搜索DOTS，让LLM能动态推理 |乔治梅森大学和腾讯AI最新

重磅：用DSPy写最佳推理轨迹搜索DOTS，让LLM能动态推理 |乔治梅森大学和腾讯AI最新

近日，来自乔治梅森大学和腾讯AI实验室的研究团队在这一领域取得了重大突破。他们提出了一种名为DOTS（Dynamic Optimal Trajectory Search）的创新方法，通过最佳推理轨迹搜索，显著提升LLMs的动态推理能力。

来自主题: AI技术研报

6990 点击 2024-10-21 14:51

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

多年来，浙江大学周晟老师团队与阿里安全交互内容安全团队持续开展产学研合作。近日，双⽅针对标签噪声下图神经⽹络的联合研究成果《NoisyGL：标签噪声下图神经网络的综合基准》被 NeurIPS Datasets and Benchmarks Track 2024 收录。本次 NeurIPS D&B Track 共收到 1820 篇投稿，录⽤率为 25.3%。

来自主题: AI技术研报

6038 点击 2024-10-21 14:42

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

视频多模态大模型（LMMs）的发展受限于从网络获取大量高质量视频数据。为解决这一问题，我们提出了一种替代方法，创建一个专为视频指令跟随任务设计的高质量合成数据集，名为 LLaVA-Video-178K。

来自主题: AI技术研报

5550 点击 2024-10-21 14:33

清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

一键部署LLM混合精度推理，端到端吞吐比AWQ最大提升6倍！清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。 MixQ支持8比特和4比特混合精度推理，可实现近无损的量化部署并提升推理的吞吐。

来自主题: AI资讯

4769 点击 2024-10-21 14:15

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

比传统MoE推理速度更快、性能更高的新一代架构，来了！这个通用架构叫做MoE++，由颜水成领衔的昆仑万维2050研究院与北大袁粒团队联合提出。

来自主题: AI技术研报

6036 点击 2024-10-21 11:22

低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架

低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架

低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架

内存占用小，训练表现也要好……大模型训练成功实现二者兼得。来自北理、北大和港中文MMLab的研究团队提出了一种满足低秩约束的大模型全秩训练框架——Fira，成功打破了传统低秩方法中内存占用与训练表现的“非此即彼”僵局。

来自主题: AI技术研报

5457 点击 2024-10-21 10:58

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

来自主题: AI技术研报

6606 点击 2024-10-20 17:34

大模型在装傻！谷歌苹果最新发现：LLM知道但不告诉你，掌握知识比表现出来的多

大模型在装傻！谷歌苹果最新发现：LLM知道但不告诉你，掌握知识比表现出来的多

大模型在装傻！谷歌苹果最新发现：LLM知道但不告诉你，掌握知识比表现出来的多

近日，来自谷歌和苹果的研究表明：AI模型掌握的知识比表现出来的要多得多！这些真实性信息集中在特定的token中，利用这一属性可以显著提高检测LLM错误输出的能力。

来自主题: AI技术研报

4590 点击 2024-10-20 17:16

英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

LLM训练速度还可以再飙升20倍！英伟达团队祭出全新架构归一化Transformer（nGPT），上下文越长，训练速度越快，还能维持原有精度。

来自主题: AI技术研报

5784 点击 2024-10-20 17:11

NeurIPS 2024 Oral | 小参数，大作为！揭秘非对称 LoRA 架构的高效性能

NeurIPS 2024 Oral | 小参数，大作为！揭秘非对称 LoRA 架构的高效性能

NeurIPS 2024 Oral | 小参数，大作为！揭秘非对称 LoRA 架构的高效性能

大型语言模型（LLMs）虽然在适应新任务方面取得了长足进步，但它们仍面临着巨大的计算资源消耗，尤其在复杂领域的表现往往不尽如人意。

来自主题: AI技术研报

5999 点击 2024-10-20 16:58

上一页当前第384页,共488页下一页