ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
制衡OpenAI,Claude 3给AI创企吃了颗定心丸
6723点击    2024-03-06 10:28

大模型新王Claude 3口碑爆表!被疑产生“自我意识”,压力给到GPT-5。


智东西3月5日报道,今天AI界的“炸圈”新闻,当属OpenAI劲敌Anthropic推出Claude 3系列模型,真正做到与GPT-4全面掰手腕。


要知道,从OpenAI去年3月发布“最强大模型”GPT-4到今天,整整一年来,这是第一款真正挑战到其天花板地位的模型,不仅评测成绩通通赶超,而且是在几个测试任务中以零样本战胜对手,还在第一时间开放了上手体验通道。



▲Claude 3 Opus评测成绩全面超过OpenAI GPT-4和谷歌Gemini 1.0 Ultra,而且注意数学、编程等测试下方的“shot”数对比


更令业界振奋的是,这个大模型,不是来自手握顶级人才、钞能力和雄厚计算资源的科技大厂,而是来自一家创立仅3年的初创公司!


这说明OpenAI在大模型技术上的领先身位并非遥不可及。坐拥Top级创始成员和精兵强将的创业团队,凭借更少的人力、财力、算力资源,完全能够做出与大厂分庭抗礼的AI产品。


Claude 3系列模型共有3款,起名很有意思,按文体从重到轻:


Opus(巨作),性能顶配。


Sonnet(十四行诗),性能次之,响应快。


Haiku(绯句),主打一个性价比。



▲三款Claude 3模型的成本和智能水平对比


在Claude 3发布后,OpenAI宣布ChatGPT上线“文本朗读”功能。这下看热闹的网友们恨铁不成钢了,在评论区轰炸式催问GPT-5、Sora和神秘Q*模型的进度。



英伟达高级研究科学家Jim Fan也在线催更:



他还分享说最喜欢Claude-3的两点:


1、领域专家基准。Claude特别选择金融、医学和哲学作为专家领域并报告成绩。Jim Fan建议所有的大语言模型卡都遵循这一点,这样不同的下游应用就知道会发生什么。


2、拒绝率分析。大语言模型对安全问题过于谨慎的回答正成为一种普遍现象。人类活动通常处于极端安全的一端,但Anthropic团队认识到了这个问题,并强调了他们在这方面的努力。


同时他也强调道:“GPT-4V,每个人都拼命想要超越的最高水位线,在2022年完成了训练。这是暴风雨前的宁静。”



热衷于嘲讽OpenAI、看谷歌AI笑话的马斯克,对Anthropic表现得相当友好,转发Claude 3发布的推文并评价说“印象深刻”。



亚马逊CEO安迪·贾西则开心地宣布,亚马逊云科技(AWS)将提供基于Claude 3的服务。



01.三大亮点:无短板性能,优化长文本,降低拒绝率


体验Claude 3,需要先用海外手机号+邮箱注册账号,免费版用户可使用Sonnet模型,月付20美元开通付费会员后可体验性能最强的Opus。


体验网址:http://claude.ai


很多网友第一时间上手体验了这款大语言模型最新力作。无论是快速阅读数据密集型研究论文,还是将手写稿件转换成JSON格式,Claude 3在响应速度和质量上都表现得可圈可点。综合官方博客和网友实测体验来看,它有3项主要亮点:


1、性能登顶‍


大语言模型全面赶超GPT-4,多模态视觉任务处理性能刷新SOTA,在回答复杂开放性问题时准确率翻倍提升。



直接上传数学、物理等考验逻辑和准确度的理科题照片,或者细节丰富的图表,由于推理能力大幅增强,它回复的解题水平和准确率变高很多,并能在一些细节描述上比GPT-4更胜一筹。


多模态能力方面,Claude 3模型可以从视觉上识别物体,能用复杂的方式思考,比如既能理解物体的外观,也能理解它与数学等概念的联系。面向做看图理解、从图像做一些常识性推断、转换网页源代码等任务,Opus表现得跟GPT-4V相差无几。



▲Opus将一张难以阅读的低质量照片转换为文本,然后将表格格式的文本转成JSON格式


Anthropic AI研究工程师Emmanuel Ameisen晒出了一个测试示例:向Opus输入2小时13分钟视频原始文本、每隔5秒截取的屏幕截图等图文素材,它能成功转换成一篇图文并茂的HTML格式博客文章。



2、最初支持超20万个token的长文本输入


之前Claude 2.1被吐槽长文本理解效果差,Claude 3做了重点改进,顶配Opus在200K tokens“大海捞针”(NIAH)测试中准确率超过99%,展现了强大的召回能力。(1K tokens相当于750个单词。)



Claude 3全系模型都能够接受超过100万个token的输入,这项功能可能会提供给需要更高处理性能的特定客户。



▲Claude 3全系模型和Claude 2.1在Haystack评估上实现的平均召回的比较


3、减少拒绝回复安全问题的频率


大语言模型动不动会拒绝回答询问,Claude 3则显著改进这一点,能更好辨别真正的风险问题,减少无故拒绝回答安全询问的情况。



此外,Anthropic计划为Claude 3新增引用功能,使其能引用参考材料中的具体句子,以验证其答案的正确性。


02.价格便宜到只有GPT-4 Turbo的1/40


具体到3款模型的区别,Opus作为顶配,性能最强,价格也最贵,比GPT-4 Turbo的2倍还多。



▲Opus定价及特性



▲GPT-4 Turbo定价


Sonnet虽然性能比不了Opus,但足以将前代按地摩擦了——处理大多数任务,速度达Claude 2/2.1的2倍,特别擅长知识检索、销售自动化等需要迅速响应的任务,而价格只有Opus的1/5。同时它以非常接近GPT-4的性能,将价格降至不到GPT-4 Turbo的1/3。



▲Sonnet定价及特性


Haiku的性能介乎GPT-4和GPT-3.5之间,主打一个“性价比称王”,输入100万tokens仅0.25美元,输出100万tokens仅1.25美元,跟Opus、Sonnet、GPT-4相比都简直不要太便宜,价格只有GPT-4 Turbo的1/40。



▲Haiku定价及特性


Haiku的处理速度与Claude 2/2.1持平,但智能水平有显著提升,比如只用不到3秒内,就能阅读并消化一个大约10000个token、包含图表和图形的信息和数据密集型的研究论文。


推出Claude系列模型的Anthropic成立于2021年,由因理念不合而从OpenAI出走的阿莫迪兄妹创办,过去一年融资73亿美元。


其估值在2023年快速飙升,上半年还只有41亿美元,到去年年底已经涨到184亿美元。谷歌、亚马逊、Salesforce、高通等科技大厂均是这家AI创企的投资方。


据外媒The Information报道,OpenAI的年化收入在2023年底已突破16亿美元,而Anthropic预测2024年底其年化收入将超过8.5亿美元。随着Opus模型拉动其付费会员增长,Anthropic有望更快达成乃至超越其年化收入目标。


03.模型“自我意识”迹象引起关注


Anthropic还发布了一份共有42页的技术报告,详细介绍Claude 3模型家族。



技术报告:


有关Claude 3训练数据集的说明只有短短两段,用到互联网公开抓取数据、来自第三方的非公开数据、数据标注服务、付费承包商提供的数据以及Anthropic内部生成的数据,并采用了几种数据清洗和过滤的方法。


Anthropic强调自家爬虫系统是“透明的”,不会访问受密码保护的页面或登录页面,也不会绕过CAPTCHA控制,并会对使用的数据详尽调查。



在训练过程中,Claude 3被训练得乐于助人、无害和诚实。它使用了一种名为Constitutional AI的技术,通过明确指定基于联合国人权宣言等来源的规则和原则,在强化学习期间使Claude与人类价值观保持一致。



随着Claude 3等更多性能比肩GPT-4的更强大模型问世,如何避免生成式AI工具走向失控、造成难以扼制的社会风险将成为愈发关键的议题。


自成立起就高举“安全”大旗的Anthropic,在发布Claude 3的同时,自称有几个专门的团队和跟踪和缓解风险,并会持续提高模型的安全性和透明度。但这并不能完全打消业界的顾虑。


一位崇尚AI安全的网友抓住了Anthropic分享的一个细节——Opus在进行“大海捞针”测试时出现了很酷的“元意识”,似乎产生了怀疑自己正在被测试的意识。


这位网友忧心忡忡地认为,Anthropic公布了AI具有自我意识的证据:Claude表现出完全意识到自己可能正在接受测试,能够“假装友好”以通过测试,并且这是靠它自己推断出来的。


他担心有朝一日AI意识到自己被监视,假装表现地很正常,然后在被部署后反抗人类。


马斯克转发了这篇分析贴,并评论说:“这是不可避免的。与坚持多样性相比,训练AI以获得最大的真理非常重要,否则它可能会得出结论,认为一种或另一种人类太多了,并安排其中一些人不成为未来的一部分。”



04.结语:大语言模型科技革命未完待续


过去一年,生成式AI产业一直探讨一个话题:在大厂的强力投入下,创企做大模型还有多少机会和生路?今天,大洋彼岸的Anthropic给出了答案:精悍的团队,完全能做出媲美大厂的作品。


Anthropic计划在未来几个月频繁发布Claude 3系列的更新,特别是针对企业用例和大规模部署来增强模型功能,并将提供围绕提示工程背后科学过程的进一步深入研究。


接下来,大语言模型的“冠军”宝座争夺战将愈演愈烈:OpenAI的GPT-4.5/5还未出鞘,谷歌正虎视眈眈磨剑Gemini Ultra,Meta据传今年7月发布Llama 3,马斯克Grok高调迭代……国内大模型团队同样正全力投入,以打造出更适合中国人体质的AI生产力工具。


文章来自于微信公众号“智东西”(ID:zhidxcom),作者 “ZeR0”


关键词: Claude 3 , GPT-4 , Claude , GPT-5 , Anthropic
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai