
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名当前最火的大模型,竟然三分之二都存在过拟合问题?
当前最火的大模型,竟然三分之二都存在过拟合问题?
2024 年 4 月 20 日,即 Meta 开源 Llama 3 的隔天,初创公司 Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本,每秒可输出token输提升至800。
前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。
在阿布扎比的 F1 赛道上,8 辆赛车使用相同的轮胎,相同的发动机,完全一样的车身,唯一不同之处就是自动驾驶代码。
对于小型语言模型(SLM)来说,数学应用题求解是一项很复杂的任务。
大型语言模型(LLM)往往会追求更长的「上下文窗口」,但由于微调成本高、长文本稀缺以及新token位置引入的灾难值(catastrophic values)等问题,目前模型的上下文窗口大多不超过128k个token
2024 年,Sora 一直活在聚光灯下
FP8和更低的浮点数量化精度,不再是H100的“专利”了!
4月28日,2024中关村论坛年会“重塑医疗:医学中的创新人工智能转型”平行论坛在北京召开。“人工智能正引领科技革命,对医疗健康产生深远影响。”北京市卫健委副主任邓平基在开场致辞中表示。
国务院国资委副主任王宏志4月28日说,中央企业、地方大型国有企业特别是行业龙头企业,要加快实施“AI+”专项行动