AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
AI大牛杨红霞离职创业,曾为字节和阿里大模型研发主力

AI大牛杨红霞离职创业,曾为字节和阿里大模型研发主力

AI大牛杨红霞离职创业,曾为字节和阿里大模型研发主力

36氪从多个独立信源处获悉,字节跳动大语言模型研发技术专家杨红霞,已于近日从字节跳动离职,并开始筹备AI创业项目。

来自主题: AI资讯
3969 点击    2024-05-25 10:58
腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

以 OpenAI 的 GPT 系列模型为代表的大语言模型(LLM)掀起了新一轮 AI 应用浪潮,但是 LLM 推理的高昂成本一直困扰着业务团队。

来自主题: AI技术研报
10060 点击    2024-05-24 20:58
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

在 AI 领域,扩展定律(Scaling laws)是理解 LM 扩展趋势的强大工具,其为广大研究者提供了一个准则,该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。

来自主题: AI技术研报
4652 点击    2024-05-24 20:52
拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」

拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」

拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」

近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。

来自主题: AI技术研报
8534 点击    2024-05-22 13:08
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。

来自主题: AI技术研报
5212 点击    2024-05-20 18:56
时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3

时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3

时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3

5月14日,开源的大语言模型Falcon 2发布,性能超越Llama 3,消息登上了Hacker News热榜第一。「猎鹰」归来,开源宇宙将会迎来新的霸主吗?

来自主题: AI技术研报
9616 点击    2024-05-20 16:14
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。

来自主题: AI技术研报
9674 点击    2024-05-20 16:10
哈佛大学朱科航:自动化社会科学Agent与人类行为建模 | Agent Insights

哈佛大学朱科航:自动化社会科学Agent与人类行为建模 | Agent Insights

哈佛大学朱科航:自动化社会科学Agent与人类行为建模 | Agent Insights

大语言模型可谓是迄今为止对人类行为最大的建模,如何借助大语言模型工具,让科技发展更好地应用到真实人类社会中去?从哈佛物理系到大语言模型结合社会学和经济学的研究,朱科航的思考路径,聚焦在对人类行为的深度学习和理解。在开始今天阅读之前,大家不妨先猜一猜,大语言模型之前人类应用最广的 TOP2 机器学习是什么?Enjoy

来自主题: AI资讯
9848 点击    2024-05-20 15:43
多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊

多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊

多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊

预训练语言模型在分析核苷酸序列方面显示出了良好的前景,但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。

来自主题: AI技术研报
9554 点击    2024-05-19 16:29
对打GPT-4!Claude 3秘密武器曝光:Claude宪法

对打GPT-4!Claude 3秘密武器曝光:Claude宪法

对打GPT-4!Claude 3秘密武器曝光:Claude宪法

Anthropic发布最新Claude宪法,兼具标准性和灵活性。语言模型如何决定它将涉及哪些问题,哪些问题它认为不合适涉及?为什么它会鼓励某些行为,而阻止另一些行为?语言模型有哪些「价值观」?

来自主题: AI技术研报
8429 点击    2024-05-19 16:07