AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

在 AI 领域,扩展定律(Scaling laws)是理解 LM 扩展趋势的强大工具,其为广大研究者提供了一个准则,该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。

来自主题: AI技术研报
5245 点击    2024-05-24 20:52
拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」

拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」

拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」

近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。

来自主题: AI技术研报
9516 点击    2024-05-22 13:08
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。

来自主题: AI技术研报
6332 点击    2024-05-20 18:56
时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3

时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3

时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3

5月14日,开源的大语言模型Falcon 2发布,性能超越Llama 3,消息登上了Hacker News热榜第一。「猎鹰」归来,开源宇宙将会迎来新的霸主吗?

来自主题: AI技术研报
10728 点击    2024-05-20 16:14
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。

来自主题: AI技术研报
10397 点击    2024-05-20 16:10
哈佛大学朱科航:自动化社会科学Agent与人类行为建模 | Agent Insights

哈佛大学朱科航:自动化社会科学Agent与人类行为建模 | Agent Insights

哈佛大学朱科航:自动化社会科学Agent与人类行为建模 | Agent Insights

大语言模型可谓是迄今为止对人类行为最大的建模,如何借助大语言模型工具,让科技发展更好地应用到真实人类社会中去?从哈佛物理系到大语言模型结合社会学和经济学的研究,朱科航的思考路径,聚焦在对人类行为的深度学习和理解。在开始今天阅读之前,大家不妨先猜一猜,大语言模型之前人类应用最广的 TOP2 机器学习是什么?Enjoy

来自主题: AI资讯
10406 点击    2024-05-20 15:43
多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊

多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊

多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊

预训练语言模型在分析核苷酸序列方面显示出了良好的前景,但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。

来自主题: AI技术研报
9970 点击    2024-05-19 16:29
对打GPT-4!Claude 3秘密武器曝光:Claude宪法

对打GPT-4!Claude 3秘密武器曝光:Claude宪法

对打GPT-4!Claude 3秘密武器曝光:Claude宪法

Anthropic发布最新Claude宪法,兼具标准性和灵活性。语言模型如何决定它将涉及哪些问题,哪些问题它认为不合适涉及?为什么它会鼓励某些行为,而阻止另一些行为?语言模型有哪些「价值观」?

来自主题: AI技术研报
8757 点击    2024-05-19 16:07
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

基于人类反馈的强化学习 (RLHF) 使得大语言模型的输出能够更加符合人类的目标、期望与需求,是提升许多闭源语言模型 Chat-GPT, Claude, Gemini 表现的核心方法之一。

来自主题: AI资讯
6287 点击    2024-05-18 11:18
大模型公司被曝卖身,多家美国AI创企裁员20%,明星独角兽急寻“救命钱”

大模型公司被曝卖身,多家美国AI创企裁员20%,明星独角兽急寻“救命钱”

大模型公司被曝卖身,多家美国AI创企裁员20%,明星独角兽急寻“救命钱”

智东西5月17日消息,一夜之间,多家美国生成式AI创企被曝身陷资金短缺危机:美国旧金山AI编程独角兽Replit今日凌晨宣布裁员20%,共30人.大语言模型创企Reka AI被曝可能以10亿美元被数据存储和分析公司Snowflake收购。

来自主题: AI资讯
9124 点击    2024-05-17 16:15