仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o
仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4oOpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的Scaling Law逐渐受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law。
OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的Scaling Law逐渐受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law。
如果有一天,家里的玩具不再只是塑料与电子元件的组合,而是一个能理解你情绪、回应你需求,甚至用温暖的“拥抱”抚慰你疲惫心灵的小伙伴,你会不会心动? 日本LOVOT用一双会“撒娇”的大眼睛,回答了这个问题。
近期的两起融资新闻来自智谱和阶跃。智谱虽然公布了30亿人民币的D轮融资数字,但始终没有公开透露具体的参投方名单,只是在媒体报道中提到:据多位知情人士透露,此次新进投资方包括多家战投及国资机构,而君联资本等老股东继续跟投。
现在定义具身智能的L1-L5级没有意义,核心标准还是我们的机器人能解决哪些实际问题。 具身智能趋势大热,敢于给断言的人不多,高阳是一个。
OpenAI o1和o3模型的秘密,竟传出被中国研究者「破解」?今天,复旦等机构的这篇论文引起了AI社区的强烈反响,他们从强化学习的角度,分析了实现o1的路线图,并总结了现有的「开源版o1」。
DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama 3的开源模型,震撼了整个AI圈。
2023 年初,Jason Wei 加入了 OpenAI,参与了 ChatGPT 的构建以及 o1 等重大项目。他的工作使思维链提示、指令微调和涌现现象等技术和概念变得广为人知。
计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。
最近一段时间,雷军千万年薪挖走DeepSeek关键开发者罗福莉的新闻,算是给年末的AI市场又提供了不少谈资,更何况作为事件核心人物的罗福莉,满打满算都还不到30岁,是一个标准的95后。
"机器究竟还需要多长时间,才能真正具备人类大脑的认知能力?"这个困扰人工智能领域数十年的根本性问题,在2024年末再次成为全球科技界的焦点。