知名人工智能研究人员SEBASTIAN RASCHKA在进入2023年尾声的时候,对几年行业的发展进行了一个全面的回顾。
在他看来,虽然今年以大语言模型为代表的AI行业风起云涌,新产品新技术不断推出,高光频现。
但是伴随着技术的发展,也有更多的问题出现,亟待解决。
文章链接:
https://magazine.sebastianraschka.com/p/ai-and-open-source-in-2023
今年,人们还没有看到人工智能产品方面有任何根本性的新技术或方法出现。相反,今年主要产品和更新都是去年基础的延续:
ChatGPT从GPT-3.5升级到GPT-4
DALL·E 2 升级为 DALL·E 3
Stable Diffusion 2.0升级为 Stable Diffusion XL
而一个一直被多方炒作的传闻很有意思:GPT-4是由16个子模块组成的专家(MoE)模型的混合体。
而且据说,这16个子模块中的每一个MoE都有1110亿个参数(作为参考,GPT-3有1750亿个参数)。
尽管不能100%确定,但GPT-4是一个MoE组成的集群这个事很可能是真的。
从这个事情上,看得出的一个趋势是,AI行业的研究人员在论文中分享的信息现在已经越来越少。
例如,GPT-1、GPT-2、GPT-3 和Instruct GPT论文披露了具体的架构和训练细节,而GPT-4架构就没有人知道了。
再举个例子:Meta AI的第一篇Llama论文详细介绍了用于训练模型的训练数据集,而 Llama 2模型则对这些信息都进行了保密。
在大模型透明度方面,斯坦福大学上周推出了 「基础模型透明度指数」(The Foundation Model Transparency Index),根据该指数,Llama 2以54%领先,GPT-4以48%排名第三。
当然,要求企业分享商业机密可能并不合理。但这仍然是一个值得一提的很有意思的一个趋势。
因为,2024年这个趋势似乎不会改变。
关于技术的进一步发展,今年的另一个趋势是输入上下文的长度一直在增长。
例如,GPT-4的竞争对手Claude 2的主要卖点之一就是它支持多达100k token的输入(GPT-4 目前只支持32k的上下文),这使得它在生成长文档摘要时特别有吸引力。
它还支持PDF输入,因此对于很多人的工作也特别有用。
根据作者的记忆,去年开源社区非常关注隐扩散模型(Latent Diffusion Model如稳定扩散模型)和其他计算机视觉模型。
扩散模型和计算机视觉一如既往地具有现实意义。不过,今年开源和学界、关注的焦点成为了LLM。
开源(或者说公开可用)LLM的爆炸式增长部分要归功于Meta公司发布的首个预训练Llama,尽管该模型的许可证具有限制性,但还是激励了许多研究人员和从业人员投入和很多时间和精力,导致了后来的羊驼大爆发:Alpaca,Vicuna,Llama-Adapter,Lit-Llama等变体的出现。
几个月后,Llama 2在很大程度上取代了Llama 1,成为功能更强的基础模型,甚至官方还推出了其他的微调版本。
然而,尽管 Llama-Adapter v1 和 Llama-Adapter v2等微调方法有望将现有 LLM变成多模态LLM,但大多数开源LLM仍然是纯文本模型。
另外一个值得注意的模型是于 10 月 17 日发布的Fuyu-8B模型。
值得注意的是,Fuyu-8B将输入片段直接传入线性投影层(或嵌入层),以学习自己的图像片段嵌入,而不是像其他模型和方法(例如 LLaVA 和 MiniGPT-V)那样依赖额外的预训练图像编码器。
这种方式大大简化了架构和训练设置。
除了上述几种多模态尝试之外,最大的研究热点仍然是使用参数小于100 B的较小模型来追求达到GPT-4级别的文本性能。
开源社区进行类似尝试的原因,可能是由于硬件资源成本和限制、有限的数据访问以及对较短开发时间的要求(由于发表论文的压力,大多数研究人员无法花费数年时间来训练一个模型)。
不过,开源LLM的下一个突破并不一定来自将模型扩展到更大的规模。
2024年,MoE方法能否将开源模型提升到新的高度,让我们拭目以待。
有趣的是,在研究方面,大家在2023年还看到了一些基于Transformer的LLM 的替代方案,包括旨在提高效率的递归RWKV LLM和卷积Hyena LLM。
不过,基于Transformer的LLM仍然是当前的主流技术。
总的来说,开源社区在这一年里非常活跃,取得了许多突破和进步。
而且开源社区的一大特点就是1+1>2。
因此,作者对积极游说反对开源人工智能的人感到难过。
作者希望开源社区能保持积极的势头,建立更有效的解决方案和替代产品,而不是一味地依赖大型科技公司发布的类似ChatGPT这样的产品。
由于开源社区的不断努力,出现了可以在单个GPU上运行的小型高效模型,如1.3B参数的phi1.5、7B Mistral和7B Zephyr,其性能已接近大型闭源模型。
这是一个令人兴奋的趋势,作者希望这一趋势能在2024年继续下去。
作者认为开源人工智能是开发高效和定制化的LLM解决方案的主要途径,包括那种可以适用于各种应用,基于个人或特定领域数据的微调LLM。
如果在社交媒体上关注过作者本人的话,可能会看到他在谈论和不断改善的Lit-GPT,这是作者积极参与的一个LLM开源资源库。
虽然作者本人非常支持开源,但他也非常喜欢精心设计的产品。
自从ChatGPT发布以来,LLM被用于几乎所有领域。
而正确使用LLM助手能让你事半功倍。
例如,向ChatGPT询问杂货店的营业时间就不是一个发挥它功能长处的用法。但是,修改文章的语法,或者进行头脑风暴,重新遣词造句。
从更宏观的角度看,LLM的核心能力是提高工作效率,这一点每个人都不会否认。
除了用于普通文本的LLM,微软和GitHub推出的Copilot代码助手也日趋成熟,越来越多的人开始使用它。
今年早些时候,Ark-Invest 的一份报告估计,代码助手能将完成一项编码任务的时间缩短约55%。
不过,不论55%这个数字是否真的那么准确,只要用过代码助手,任何人都能感受到效率的巨大提升,可以让繁琐的代码任务变得更轻松。
有一点是肯定的:代码助手将继续存在,而且随着时间的推移,它们只会变得越来越好用。
它们会取代人类程序员吗?作者希望不会。但毫无疑问,它们将提高现有程序员的工作效率。
这对StackOverflow意味着什么?《人工智能现状报告》中有一张图表,显示了StackOverflow 与 GitHub 的网站流量对比,这可能与Copilot的使用率越来越高有关。
不过,作者认为即使是ChatGPT/GPT-4已经对代码相关的任务很有帮助了。
可能ChatGPT也是导致StackOverflow流量下降的部分原因(甚至是主要原因)。
与2022年一样,同样的问题仍然困扰着LLM:他们可能会生成有毒内容,并倾向于产生幻觉。
在这一年中,出现多种解决这一问题的方法,包括带有人类反馈的强化学习(RLHF)和英伟达提出的NeMO Guardrails。
然而,这些方法仍然解决不了根本问题,要么过于严格,要么效果不好。
项目地址:https://github.com/NVIDIA/NeMo-Guardrails
到目前为止,还没有一种方法(甚至连设计可行方法的思路都没有)能在不削弱LLM的积极功能的基础之上,能百分之百可靠地解决这个问题。
在作者看来,这一切都取决于人类如何使用 LLM:不要什么事都用LLM,数学用计算器,把LLM只看做是写作工具,并仔细检查它的输出,等等。
此外,对于特定的商业应用,也许可以探索检索增强(RAG)系统。
它作为一种折中方案,开发人员从语料库中检索相关的文档段落,然后根据检索到的内容为基础, 为LLM的文本生成设定条件。
这种方法能让模型从数据库和文档中获取外部信息,而不是依赖于记忆所有知识和信息。
另一个更紧迫的问题,是围绕人工智能的版权争论。
根据维基百科的说法,「在受版权保护的材料上训练出来的LLM的版权问题尚未解决」。
总体看来,许多规则仍在起草和修订之中。作者希望,无论规则是什么,都能清晰明了,以便人工智能研究人员和从业人员能够做出相应的调整和行动。
困扰学术研究的一个问题是,流行的基准和排行榜被基本上都是半成品,因为测试集内容可能已经泄露,成为了LLM 的训练数据。这已经成为 phi-1.5 和 Mistral的一个问题。
自动评估 LLM 的一个常用但不太方便的方法是以人类的偏好为测评标准。另外,许多论文也将 GPT-4作为第二好的方法。
生成式人工智能目前仍处于初期探索阶段。
当然,大语言模型和文生图模型已经在很多领域非常好用了。
然而,由于昂贵的托管和运行成本,它们能否为公司赚钱仍是一个备受争议的话题。
例如,据报道,OpenAI去年亏损了5.4亿美元。另一方面,最近有报道称,OpenAI现在每月能赚到8000万美元,已经抵消它的运营成本。
与生成式人工智能有关的一个大问题是伪造图像和视频的问题,这在目前的社交媒体平台上尤为明显。
伪造图片和视频一直是个问题,Photoshop等软件已经降低了伪造内容的门槛,人工智能正在将这一问题提升到一个新的水平。
也有人工智能系统希望能在检测人工智能生成的内容方面产生作用,但这些系统对文本、图像或视频都不可靠。
要在一定程度上遏制和打击这些问题,唯一的办法就是依靠值得信赖的专家。
就像我们不会从互联网上的随机论坛或网站上获取医疗或法律建议一样,我们可能也不应该在没有反复核实的情况下相信互联网上随机账号的图片和视频。
与前面提到的版权争论有关,许多公司(包括 Twitter/X 和 Reddit)关闭了免费API访问权限,以增加收入,同时也是为了防止搜刮者收集平台数据用于人工智能训练。
我遇到过许多专门从事数据集相关工作的公司的广告。虽然人工智能可能会令人遗憾地导致某些工作自动化,淘汰人类劳动力,但它似乎同时也在创造新的就业机会。
为开源LLM进步做出贡献的最佳方式之一,可能就是建立一个数据集众包平台,来撰写、收集和整理经明确许可用于LLM培训的数据集。
当Llama 2模型套件发布时,它包含了针对聊天进行微调的模型。Meta AI 使用强化学习与人类反馈 (RLHF),提高了其模型的有用性和无害性。
作者认为RLHF是一种非常有趣且有前途的方法,但除了InstructGPT、ChatGPT和Llama 2之外,它并没有被广泛使用。下图是一张关于RLHF日益普及的图表。
由于 RLHF 的实现有点复杂和棘手,因此大多数开源项目仍然专注于指令微调的监督微调。
RLHF 的最新替代方案是直接偏好优化 (DPO)。在相应的论文中,研究人员表明,在RLHF中拟合奖励模型的交叉熵损失可以直接用于微调LLM。
根据他们的基准,使用 DPO 更有效,并且在响应质量方面通常也优于 RLHF/PPO。
DPO似乎尚未被广泛使用。然而,不久前,我们看到了通过DPO训练的第一个公开可用的LLM,它似乎优于通过 RLHF 训练的更大的Llama-2 70b Chat模型:
但是,值得注意的是,RLHF并未明确用于优化基准性能;它的主要优化目标是人类用户评估的「有用性」和「无害性」,这里没有捕捉到这一点。
不久前,作者在Packt 生成式 AI 会议上发表了演讲,强调文本模型最突出的用例之一仍然是分类。例如,考虑一些常见的任务,例如垃圾邮件分类、文档分类、对客户评论进行分类,以及在社交媒体上标记有害言论。
而对于这些任务,仅使用单个 GPU 运行「小型」LLM(例如DistilBERT)就足以获得非常好的分类性能。
今年,作者在他的深度学习基础课程中发布了使用小型LLM进行文本分类的练习,有人甚至通过微调现成的可用 Roberta模型,在IMDB电影评论数据集上实现了>96%的预测准确率。
话虽如此,目前却仍然没有看到任何关于LLM分类的新的主要工作或趋势。大多数从业者仍在使用基于 BERT 的编码器模型或编码器-解码器模型,例如2022年问世的 FLAN-T5。这可能是因为这些架构仍然在各项任务中表现良好。
2022 年,作者撰写了《 A Short Chronology Of Deep Learning For Tabular Data》,介绍了许多有趣的基于深度学习的表格数据方法。然而,与上面提到的用于分类的 LLM 类似,在表格数据集方面也没有那么多的发展。
2022 年,Grinsztajn 等人撰写了一篇论文,题为《Why do tree-based models still outperform deep learning on tabular data?》。确实,基于树的模型(随机森林和 XGBoost)在中小型数据集(10k个训练示例)上的表格数据方面仍然优于深度学习方法。
此外,XGBoost又推出了一个大型 2.0 版本,该版本具有更好的内存效率、对不适合内存的大型数据集的支持、多目标树等。
大型语言模型开发(LLM)开发仍在快速进行。与此同时,撇开人工智能监管的争论不谈,LLM新闻的出现速度似乎比平时略慢。这是一个很好的机会,可以偶尔关注计算机视觉,讨论该领域的研究和开发现状。
除了研究之外,与计算机视觉相关的人工智能一直在激发今年已经成熟的新产品和体验。
例如,今年夏天,第一辆真正的无人驾驶Waymo汽车在街上漫游。
以及,人工智能的使用在电影行业越来越受欢迎。最近的一个例子是哈里森·福特(Harrison Ford)在《夺宝奇兵5》中的去衰老,电影制片人使用演员的旧档案材料训练了人工智能。
然后,生成式人工智能功能现在已经牢固地集成到流行的软件产品中。最近的一个例子是 Adobe 的 Firefly 2。
预测始终是最具投机性和挑战性的方面。去年,作者预测LLM在文本或代码以外的领域中会有更多应用。
其中一个例子是HyenaDNA,它是DNA的LLM。另一个Geneformer,这是一个在3000万个单细胞转录组上预训练的transformer,旨在促进网络生物学的预测。
到2024年,LLM将越来越多地改变计算机科学之外的STEM研究。
一个新兴趋势是各种公司开发定制 AI 芯片,这是由于高需求导致的GPU稀缺。谷歌将在其TPU硬件上加倍投入,亚马逊已经推出了Trainium芯片,AMD可能会缩小与NVIDIA的差距。现在,Microsoft 和OpenAI也开始开发自己的定制 AI 芯片。
这方面的挑战在于,确保在主要的深度学习框架中对这种硬件提供全面而强大的支持。
在开源方面,我们仍然落后于最大的闭源模型。目前,最大的公开型号是 Falcon 180B。这倒是不太令人担忧,因为无论如何,大多数人都无法获得处理这些模型所需的大量硬件资源。我们更加渴望的是更多由多个较小的子模块组成的开源 MoE 模型,而不是更大的模型。
另外,我们也可以看到众包数据集的上的进展,以及 DPO 的兴起,以取代最先进的开源模型中的监督微调。
参考资料:
https://magazine.sebastianraschka.com/p/ai-and-open-source-in-2023
文章来自于 微信公众号“新智元”
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner