AI资讯新闻榜单内容搜索-预训练

大模型训练成本降一半！厦大和vivo联合推出预训练新策略，给LLM降本增效

近年来，大语言模型（Large Language Models, LLMs）的研究取得了重大进展，并对各个领域产生了深远影响。然而，LLMs的卓越性能来源于海量数据的大规模训练，这导致LLMs的训练成本明显高于传统模型。

来自主题: AI技术研报

5200 点击 2024-11-01 10:15

全球首次！时序大模型突破十亿参数，华人团队发布Time-MoE，预训练数据达3000亿个时间点

Time-MoE采用了创新的混合专家架构，能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。

来自主题: AI技术研报

5977 点击 2024-10-23 13:40

对话李开复：零一万物融的钱够做预训练，我做toB不会亏钱

刚从美国回来的李开复，想清楚了很多事情，他的大模型公司零一万物也开始发生变化。

来自主题: AI资讯

9087 点击 2024-10-17 15:29

李开复回应放弃预训练：训一次大模型三四百万美元，头部公司都付得起｜最前线

零一万物的最新模型，打榜赢了GPT-4o。

来自主题: AI资讯

4339 点击 2024-10-17 09:56

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟，研究的探索空间正由预训练转向后期训练（Post-training），OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报

6333 点击 2024-10-14 15:46

红杉资本2024：生成式AI o1新章节，代理推理时代开始，预计会出现新的“杀手级应用”

生成性人工智能正从快速预训练响应向慢速深度推理转变，开启自主应用的新篇章。

来自主题: AI资讯

8521 点击 2024-10-12 10:26

NeurIPS 2024｜SparseLLM：突破性全局剪枝技术，大语言模型稀疏化革命

该研究主要探讨了大语言模型的全局剪枝方法，旨在提高预训练语言模型的效率。该成果的发表为大模型的剪枝与优化研究提供了新的视角，并在相关领域具有重要的应用潜力。

来自主题: AI技术研报

6143 点击 2024-10-10 17:17

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了一系列对齐（Alignment）技术，旨在优化模型的输出，使其更加符合人类的价值观和期望。

来自主题: AI技术研报

9745 点击 2024-10-10 12:21

何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式，AI性能暴涨超20%

通用机器人模型，目前最大的障碍便是「异构性」。

来自主题: AI资讯

5842 点击 2024-10-06 16:26

迈向多语言医疗大模型：大规模预训练语料、开源模型与全面基准测试

在医疗领域中，大语言模型已经有了广泛的研究。然而，这些进展主要依赖于英语的基座模型，并受制于缺乏多语言医疗专业数据的限制，导致当前的医疗大模型在处理非英语问题时效果不佳。

来自主题: AI技术研报

9791 点击 2024-09-29 22:38