# 热门搜索 #
搜索
搜索: Transforme
位置编码发展史:从零开始带你推导神秘的RoPE

RNN每个step的隐状态都取决于上一个step的输出,这种连续的状态转移方式使得RNN天然带有位置信息。

来自主题: AI技术研报
4676 点击    2024-07-26 09:23
6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码

来自微软、MIT等机构的学者提出了一种创新的训练范式,攻破了大模型的推理缺陷。他们通过因果模型构建数据集,直接教模型学习公理,结果只有67M参数的微型Transformer竟能媲美GPT-4的推理能力。

来自主题: AI技术研报
7860 点击    2024-07-14 13:52