LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。
来自主题: AI技术研报
3202 点击 2024-10-20 17:11
LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。
UrbanGPT是一种创新的时空大型语言模型,它通过结合时空依赖编码器和指令微调技术,展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖,即使在数据稀缺的情况下也能提供准确的预测,为城市管理和规划提供了强大的支持。
时空预测技术,迎来ChatGPT时刻。
《DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models》
ChatGPT悄悄更新个大功能!看起来要把插件系统迭代掉了。
绝大多数AI生图模型在训练的时候侧重的是文本和图形之间的关联,并不擅长语义分析和复杂元素处理。
NeurIPS收录的一项新研究,让大模型也学会“读心术”了!通过学习脑电波数据,模型成功地把受试者的脑电图信号翻译成了文本。
PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!