
开源1.6B小模型「小狐狸」,表现超同类模型Qwen和Gemma
开源1.6B小模型「小狐狸」,表现超同类模型Qwen和Gemma自从 Chatgpt 诞生以来,LLM(大语言模型)的参数量似乎就成为了各个公司的竞赛指标。GPT-1 参数量为 1.17 亿(1.17M),而它的第四代 GPT-4 参数量已经刷新到了 1.8 万亿(1800B)。
自从 Chatgpt 诞生以来,LLM(大语言模型)的参数量似乎就成为了各个公司的竞赛指标。GPT-1 参数量为 1.17 亿(1.17M),而它的第四代 GPT-4 参数量已经刷新到了 1.8 万亿(1800B)。
知识密集型工作也败了!大型语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。
原通义千问大模型技术负责人周畅(花名:钟煌)于 7 月 18 日被曝将离职创业,然而在 10 月 23 日,就有消息称周畅已经低调加入了字节跳动。
OpenAI“双12”直播第二天,依旧简短精悍,主题:新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。少到什么程度呢?最低几十个例子就可以。
全国首个零售金融领域大模型天镜,揭晓了过去460多天的成绩单。 目前已实现智能营销交互、数据决策支持、防伪安全等八大应用场景。1.0版本人机交互模型完成100亿交易额,全面服务超2亿用户。
随着“AI妖股”Applovin股价暴涨790%,市值超过1000亿美金,国内大厂正加速发力生成式 AI 营销广告领域。
苹果今日向iPhone用户推送了 iOS 18.2 RC 更新(内部版本号:22C150),本次更新距离上次发布 Beta/RC 间隔15天。
DeepMind大模型再登上Nature——
Cursor:革命性AI编程助手,估值25亿美元。
近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值,支持3 bit KV cache,效率再突破。