ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
GPT-5不会真正突破,24年AGI不会实现!全网AI大佬24年最全预测
3706点击    2024-01-01 23:25


23年是当之无愧的「生成式AI之年」。


24年,AI技术会有哪些突破?


英伟达高级科学家Jim Fan称,2024年将是视频年。尽管机器人和具身智能体才刚刚起步,但我认为视频AI将在未来12个月内迎来突破性进展的时刻。



OpenAI联创Greg Brockman则预测:2024年,AI的能力、安全性、潜在影响的积极性上,都会是突破性的一年。


当然,从更长远的角度看,这只是又一个指数级的一年,让每个人的生活都比今天更好。



新的一年,人工智能还会像2023年一样,大放异彩吗?


AI大佬2024预测


Meta的研究员Martin Signoux对2024年AI做出了8大预测,就连LeCun大佬表示深度赞同。



首先,人工智能智能眼镜蔚然成风。随着多模态技术的兴起,领先的人工智能公司将加倍努力开发人工智能可穿戴设备。还有什么比眼镜外形更适合承载人工智能助手呢?



ChatGPT之于人工智能助手,就像谷歌之于搜索一样。2023年,ChatGPT开始大放异彩,Bard、Claude、Llama、Mistral和数以千计的衍生产品相继问世。


随着产品化的继续推进,ChatGPT将不再是这个领域的唯一参考标准,其估值也将面临修正。



大模型模型再见,多模态模型你好。LMM将不断涌现,并在多模态评估、多模态安全、多模态这个、多模态那个的争论中取代LLM。此外,LMM是迈向真正通用人工智能助手的垫脚石。




没有重大突破,但各方面都有改进。新模型不会带来真正的突破(GPT-5),LLM在本质上仍然有限,而且容易产生幻觉。我们不会看到任何飞跃,使它们在2024年可靠到足以「解决基本的AGI」。


在RAG、数据整理、更好的微调、量化等方面的改进,将使LLM在许多用例中变得足够强大/有用,从而推动各行业各种服务的采用。



小模型(SLM)已经出现,但成本效益和可持续发展的考虑将加速这一趋势。量化技术也将大大提高,从而推动消费服务的设备集成浪潮。



开源模型击败GPT-4,开源与封闭之争逐渐平息。回顾过去12个月开源社区的活力和进步,很明显,开源模型将很快缩小性能差距。



基准仍然是一个难题。没有一套基准、排行榜或评估工具能够成为模型评估的一站式服务。相反,我们将看到一系列改进(如HELM)和新举措(如GAIA),尤其是在多模态方面。



与现有风险相比,存在的风险不会引起太多讨论。虽然X风险成为2023年的头条新闻,但公众讨论将更多地关注与偏见、假新闻、用户安全、选举诚信等相关的现有风险和争议。



Lightning AI的创始人William Falcon对2024年的预测是:


- 1B模型性能将优于70B。

- 在CPU上部署模型几乎是免费的,而不是API服务。

- 数据质量将使性能提升10倍。

- 开源模型的组合将击败最好的私有模型。

- 编译器将使模型(训练和推理)的速度至少提高80%。

- 立法将支持内容创建者,而非模型开发者。



开源工具平台LlamaIndex的创始人Jerry Liu表示,


- RAG将继续成为一个大焦点

- 每个AI工程师仍然需要强大的软件工程基础。

- 向量数据库开始开发类SQL接口并支持多模态

- 多模态模型在文档处理中得到更多使用(但首先,计算成本/延迟需要降低)

- 类似GPT-4的全部能力成为开源,并且更快/更便宜。

- 如果是这种情况,智能体的开发会重新蓬勃发展。

- 提示和以前一样重要,但提示工程的重要性会下降



2023年,ChatGPT访问量全球居首


过去一年里,AI无处不在,甚至重新定义了整个行业。


在线内容写作公司Writerbuddy AI使用SEO行业著名的工具SEMrush,通过抓取AI工具数据,研究了3000+种AI工具。


结果发现,从2022年9月-2023年8月,排名前50的AI工具,产生了超过240亿次的惊人访问量,平均每月增长2.363亿次。


其中,ChatGPT独占了140亿流量,占分析流量的60%。



以下是报告中的关键发现:


- AI行业平均每月增长2.363亿次访问量。分析的50个人工智能工具经历了10.7倍的增长率,平均每月访问量增加 2.363 亿次。

- 过去12个月中,AI应用每月平均访问量达到20亿次。过去6个月,每月平均访问量激增至33亿次。

- ChatGPT、Character AI和Google Bard的访问量分别净增长了18亿次、4.634亿次和6800万次。



- 访问量最高AI聊天机器人:ChatGPT处于绝对领先地位,占AI聊天机器人类别总访问量的 76.31%。紧随其后的是Character AI,以19.86%的访问量位居第二。

- Craiyon、Midjourney和Quillbot面临最大的流量下降。



- 美国贡献了55亿人次访问量,占总访问量的22.62%,而欧洲国家合计贡献了39亿人次访问量。

- AI 聊天机器人工具最受欢迎,访问量达到191亿次。

- 超过63%的AI工具用户通过移动设备访问。存在性别差异,69.5%为男性用户,30.5%为女性用户



除了风靡全球的ChatGPT,23年的这些技术也很惊艳


23年过去了,这一年的关键词,无疑就是「生成式AI」。


22年底ChatGPT的推出,以及23年3月发布的GPT-4,让全世界见识到了大语言模型的广泛可用性,让23年变成了属于文本、音频和视频生成式AI的一年。


除了今年的「宠儿」ChatGPT之外,其他公司的锋芒也不应被忽视,比如放出了第一个开源语言模型的公司,和几家新的AI初创公司,包括在年底发布了目前可用的最佳开源语言模型Mixtral 8x7B的Mistral。


除此之外,还有以下这些让人印象深刻的技术。


斯坦福小镇和机器猫


「斯坦福小镇」,展示了令人印象深刻的文本和编码任务的应用。


团队创建了一个受模拟人生启发的沙盒环境,其中的25名AI智能体,每个都有属于自己的职业和个性,可以自主互动。



这些智能体表现出了可信的个人和紧急社交行为,包括做计划、参加情人节派对。这项工作展示了基于LLM的智能体如何相互交互,并产生了有趣的结果。


这一想法已被其他研究和开源项目所采用,例如Auto-GPT和BabyAGI,而OpenAI则通过Assistant API,将其大大简化。



GPT-4等基础模型,也已用于机器人技术,取得了一些进展,比如谷歌的机器人RT-2和RoboCat。



RT-2是一种用于机器人控制的AI模型,可以从机器人和网络数据中学习。该模型可以处理文本和图像输入,并利用其广泛的网络知识来执行尚未经过明确训练的任务。


在6000多次机器人测试中,RT-2在未经训练的任务中的成功率,几乎是其前身的两倍。


另一方面,RoboCat是一种AI,可以生成训练数据,以改善机器人的控制。


其他公司的技术,如英伟达的多模态VIMA模型,也在机器人技术中使用了基础模型。



DreamerV3和FunSearch


在强化学习领域,研究者们也取得了不少重要成果。


一个例子是DreamerV3,它可以处理完全不同的问题,而无需任何调整。


在没有人类模型的情况下,DreamerV3就会学习如何在Minecraft中开采钻石。



今年早些时候,DeepMind还展示了AdA(Adaptive Agent),这是DeepMind的一个基础强化学习模型。


AdA遵循基础模型的经典配方,在具有大量数据的任务上进行了训练。AdA之所以意义重大,是因为它表明了,强化学习中的扩展可以使模型在其他任务上表现更好。



在各个科学领域,深度学习展现出越来越多的作用。


DeepMind开发了AlphaTensor,一种用于快速矩阵乘法的新算法。


同时,DeepMind最新版本的AlphaFold蛋白质结构预测系统,克服了之前版本的许多弱点,为计算结构预测开辟了新的可能性。



此外,Google DeepMind还展示了FunSearch,这是首次使用代码生成语言模型与进化搜索算法相结合,为数学问题找到以前未知的解决方案。



OthelloGPT、Q-Star和AI法案


2023年,也是AI监管的一年,和对AI存在主义风险发出警告的一年。


这种趋势无疑也会刺激业界研究,好让人类更好地理解LLM的内部工作原理。


这期间有一些有趣的论文,比如OthelloGPT,微软的GPT-4体现了AGI火花,以及谷歌关于大模型「顿悟」的论文。



提示工程领域提供了对LLM的见解。


François Chollet将提示工程解释为寻找正确的向量程序和Promptbreeder,这表明,提示在未来可能会变得更加自动化。



在年末,传起了关于Q-Star的谣言,伴随着人们的AI的恐惧、AGI的炒作、以及短短几天多次反转的OpenAI宫斗闹剧。



在2024年,或许我们会看到猜测变少,谈判变多。


AI训练使用的数据,在哪些范畴内是合理的?最近纽约时报对OpenAI发起的诉讼,引起了全社会范围内的广泛探讨。



类似的辩论,也将在欧盟上演,在今年年底前,欧盟各国就《欧盟人工智能法案》达成一致。这一法案的细节将在明年决定,并且对欧洲的人工智能市场产生重大影响。


2024 AI展望


在经历了爆炸性的2023年之后,2024年的人工智能领域有将会有哪些进展?


毋庸置疑,在这个新的一年里,我们仍将看到领先的AI在许多新的创造性方式中应用,推动整个行业的进步。


Copilot AI登台:智能体时代来临


OpenAI在首届开发者大会上发布的GPTs、Assitants等工具,微软产品全线更名Copilot等等,智能体在今年迎来了大爆发。


这些工具已经开始在一个又一个行业产生影响,但我们迄今所看到的与即将到来的相比微不足道。


今年早些时候,来自普林斯顿、谷歌团队发表的ReAct论文展示了大模型如何有效地学习如何使用工具,并推动了这方面的大量研究。


OpenAI、Anthropic在内的公司已经花了一年的时间来调整自家模型,以便更好地使用这种技术。


比如,OpenAI的函数调用,以及Anthropic的Claude XML支持。



项目地址:https://react-lm.github.io/


还有一些研究机构专门训练了专门的大模型,比如伯克利的Gorilla LLM。


另外,开源代码库Langchain、Rivet等都让智能体变得容易得多。


看得见,AI智能体比以往任何时候都更容易开发,成本也更低。它们在发挥人类聪明才智的同时,还能深入连接对用户和公司最重要的数据。


2024年,我们将看到「智能体时代」的到来,这是通过软件满足需求和与技术互动的一个全新方向的开端。


多模态大模型突破视觉障碍


ChatGPT能够理解和表达人类自然语言,这是吸引用户和开发者的突破性功能。


但是,2024年将看到AI视觉可能会更加重要,影响更加深远。


文字固然强大,但图像、视频、音频能以更集中的方式传递信息和情感。思想的空间表达是一种非常强大的工具,可以简单地传达复杂的概念。


LLM不仅能对文本数据进行训练,还能对视觉数据进行训练,多模态能力更加明显。


我们已经看到,Ai Pin、Apple Vision等可穿戴设备的发展,它们有望为我们的日常生活提供帮助。


例如,它们可以提供与交流的人的背景信息、与工作相关的视觉提示,或完成任务的实时建议。



创新将走向何方?速度有多快?现在还很难说,但能够解读图像和视频并对环境中的物理变化做出即时反应,为智能人工智能只能以如何帮助人类增添了一个极其重要的维度。


AI操控达到危险级别


AI爆发为各个领域带来翻天,覆地的变化的同时,也让我们看到AI生成虚假信息给生活带来了困扰。


在人类历史上,大规模影响和操纵AI从未如此强大,也从未如此普及。


人工智能已经让人们几乎无法辨别「真实」的社交互动与内容,因为图像,甚至视频都可以很轻而易举地生成。


未来一年,人工智能操纵可能会大行其道,从自动勒索和欺诈到阴谋论的传播。


总而言之,2024年,人工智能将给世界带来许多令人难以置信的东西,但它也将以新的方式挑战我们。


知友预测


关于此话题的畅想,也上了知乎热榜。




知友「引线小白」预测,在24年,模型效果会进一步突破,可能只要7B的模型推理资源,就能与现在的GPT-4持平。


随着部署成本大幅下降,24年可能就会成为AI Agent元年,出现一个爆款。


多模态进多模态出一统江湖的模型,有可能出现。


第一部AI电影,也有望在24年出现。



清华自动化系在读博士认为,「多模态大模型取得进一步突破,图片和视频生成能力进一步提升。更多的人力工作,特别是需要部分创造力的工作被取代。部分领域大模型的涌现能力进一步凸显,表现出一些更加具有创造性的行为。」



AI架构师「春阳CYang」预估,2024年应该是AI大模型应用落地的元年。


2023一整年,虽然大模型火爆,但真正能够落地的产品还很少,只集中在改写文案等浅层的应用上。


但现在,有很多大模型领域的创意产品在落地了,可以期待一波。



程序员@小五哥预测道——


大语言模型将在手机端运算推理;Agent将代替人做一些更实用的事情;最令人开心的是,人形机器人很可能帮我们洗衣、拖地、做饭、收拾房间了!




参考资料:

https://writerbuddy.ai/blog/ai-industry-analysis

https://x.com/gdb/status/1741529664856764556?s=20

2023/https://www.zhihu.com/question/635190738

https://www.zhihu.com/question/635190738/answer/3327969527

https://www.zhihu.com/question/635190738/answer/3334551780




文章来自微信公众号 “ 新智元 ”












关键词: GPT-5 , 生成式AI , AI , LLM
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0