AI资讯新闻榜单内容搜索-AL

10行代码让大模型数学提升20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

只要不到10行代码，就能让大模型数学能力（GSM8k）提升20%！

来自主题: AI技术研报

10558 点击 2024-08-24 16:27

浅谈领域模型训练

这篇文章对如何进行领域模型训练进行一个简单的探讨，主要内容是对 post-pretrain 阶段进行分析，后续的 Alignment 阶段就先不提了，注意好老生常谈的“数据质量”和“数据多样性”即可。

来自主题: AI技术研报

10806 点击 2024-08-24 10:54

Transformer核心作者重返谷歌，任Gemini联合技术负责人！联手Jeff Dean追赶竞敌

被谷歌买下的AI独角兽Character.AI，已与团队深度融合。Transformer核心作者、创始人之一Noam Shazeer将担任Gemini联合技术负责人，与Jeff Dean和Oriol Vinyals平起平坐。

来自主题: AI技术研报

10548 点击 2024-08-24 10:50

如何让等变神经网络可解释性更强？试试将它分解成「简单表示」

神经网络是一种灵活且强大的函数近似方法。而许多应用都需要学习一个相对于某种对称性不变或等变的函数。图像识别便是一个典型示例 —— 当图像发生平移时，情况不会发生变化。等变神经网络（equivariant neural network）可为学习这些不变或等变函数提供一个灵活的框架。

来自主题: AI技术研报

9220 点击 2024-08-23 18:10

GPT-4无师自通预测蛋白质结构登Nature子刊！LLM全面进军生物学，AlphaFold被「偷家」?

距离GPT-4首次发布已经过去了将近一年半的时间，Nature最近发表的一篇报告却探索出了这个「过气」模型的新用途——氨基酸和蛋白质的结构建模。

来自主题: AI技术研报

8539 点击 2024-08-23 16:28

「C位观察」数据流动的艺术：构建AI时代的高速通信网络

为了实现算力层面的提升和追赶，国内有大量的厂商和从业者在各个产业链环节努力。但面对中短期内架构、制程、产能、出口禁令等多方面的制约，我们认为从芯片层面实现单点的突破依旧是非常困难且不足的。

来自主题: AI技术研报

7067 点击 2024-08-23 15:10

多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA

Attention is all you need.

来自主题: AI技术研报

10777 点击 2024-08-22 16:44

27岁连续创业者：用AI打造下一代故事创作平台，颠覆传统内容创作的未来！

MidReal 创始人陈锴杰，持续创业者，大学毕业后一直在创业，从18 ~19 年休学创业做家庭智能机器人，到2020 年开始第二次创业做 AI agent for Gaming，曾基于 GPT-2 等技术，在 ChatGPT 推出前实现“斯坦福小镇”等创新游戏模式，目前在做的是 AI 互动的小说故事创作，也就是今天的 MidReal。

来自主题: AI资讯

13364 点击 2024-08-21 15:14

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，零污染

随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

来自主题: AI技术研报

11943 点击 2024-08-21 14:28

哈萨比斯：谷歌想创造第二个Transformer，还想把AlphaGo和Gemini强强联合

当一家人工智能公司的首席执行官更像是计算机科学家而不是推销员时，我感觉更舒服

来自主题: AI资讯

4588 点击 2024-08-20 14:31