
微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源
微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源RedStone是一个高效构建大规模指定领域数据的处理管道,通过优化数据处理流程,从Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等数据集,在多项任务中超越了现有开源数据集,显著提升了模型性能。
来自主题: AI技术研报
5770 点击 2025-02-18 20:15