标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源
标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源文字中貌似不起眼的标点符号,竟然可以显著加速大模型的训练和推理过程?
文字中貌似不起眼的标点符号,竟然可以显著加速大模型的训练和推理过程?
近年来大语言模型(LLM)的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而,现有主流多模态大模型(MLLM)依赖复杂的外部视觉模块(如 CLIP 或扩散模型),导致系统臃肿、扩展受限,成为跨模态智能进化的核心瓶颈。
继上周发布全球首个混合推理模型 Claude 3.7 Sonnet 之后,Anthropic 又迎来了一个好消息。今天凌晨,Anthropic 官宣完成 E 轮融资,筹集到了 35 亿美元,投后估值 615 亿美元。
智东西3月3日报道,继2月22日超过豆包后,今日,腾讯旗下AI大模型应用腾讯元宝超过DeepSeek,登顶iOS免费App榜。近期借势DeepSeek,腾讯元宝存在感爆棚,密集上新:2月17日宣布已上线DeepSeek-R1 671B和腾讯混元深度思考模型Thinker(T1);2月18日宣布调用腾讯元宝紧急支持微信搜索,让大家都能稳定体验和使用DeepSeek-R1;
Hugging Face发布了「超大规模实战手册」,在512个GPU上进行超过4000个scaling实验。联创兼CEO Clement对此感到十分自豪。
在信息爆炸的时代,搜索引擎早已成为知识工作者和普通人获取专业信息的关键入口。然而,传统搜索引擎以关键词匹配为核心的模式,正在面临前所未有的挑战。
杭州在有了六小龙之后,下一个目标,“盯”上了北京的六小虎——智谱。在杭州的大力支持下,近日智谱完成一笔金额超10亿元人民币的战略融资,参与投资方包括杭州城投产业基金、上城资本等。
国际可重构计算领域顶级会议 ——FPGA 2025 在落幕之时传来消息,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightVGM,这是 FPGA 会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣。
什么,你在开发RAG竟然还没听说过Embedding模型还有排名?在AI应用开发热潮中,Embedding模型的选择已成为决定RAG系统成败的关键因素。然而,令人惊讶的是,许多开发者仍依靠直觉或跟风选择模型,而非基于系统化评估。
只需几句话,AI 模型就可以被提示创作一个故事、一幅图像,甚至一部短片。但根据 Weber Wong 的说法,“这些模型都是“由非创意人士制作,供其他非创意人士感受创意的。”