
你正在做的大模型评测,可能有一半都是无用功 | 上海AI Lab&上交&浙大出品
你正在做的大模型评测,可能有一半都是无用功 | 上海AI Lab&上交&浙大出品评估多模态AI模型的那些复杂测试,可能有一半都是“重复劳动”!
评估多模态AI模型的那些复杂测试,可能有一半都是“重复劳动”!
OpenAI 请求特朗普政府提供更多法律保护
ChatGPT等AI模型爆发式增长引发关键问题:这场AI革命需要消耗多少能源?本文探究数据中心在乡村地区的快速扩张,以弗吉尼亚州为例,揭示研究者如何通过供应链分析和直接测量两种方法估算AI能耗。
在32道高等数学测试中,LLM表现出色,平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错!向量计算、几何分析、积分计算、优化问题等,高等AI模型轻松拿捏。研究发现,再提示(Re-Prompting)对提升准确率至关重要。
最近, Meta首席AI科学家杨立昆接受海外播客This Is IT 的专访,探讨了深度学习的发展历程、机器学习的三种范式、莫拉维克悖论与AI发展的限制、训练AI模型的资源、AI基础设施投资等话题。
见识过32B的QwQ追平671的DeepSeek R1后——刚刚,7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事?新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。
据消息报道,Meta Platforms 准备发展并运行AI聊天机器人,以吸引Messenger 和 WhatsApp 等企业。作为拥挤市场中的新来者,Meta 将其商业 AI 聊天机器人定位为提供客户支持、信息和推荐,以促进销售的工具。
2025年伊始,DeepSeek的落地引起了时代的科技大震荡,而随着其爆红,国内网友也玩出了各种新花样:年轻人深夜用它算命、股民根据它的建议炒股、单身贵族把它当“赛博月老”寻姻缘......不少人甚至和其谈起了恋爱。他(她)们把自己的理想型输入AI模型,用话术和AI“产崽”,打造一个私人订制版的“完美恋人”。
在 DeepSeek 生成的文本中,有 74.2% 的文本在风格上与 OpenAI 模型具有惊人的相似性?这是一项新研究得出的结论。这项研究来自 Copyleaks—— 一个专注于检测文本中的抄袭和 AI 生成内容的平台。
AI模型的训练和推理成本在过去18个月内大幅下降,达到180倍的成本降低。这一趋势推动了更多开源项目的涌现。