闲来无事,我测了测国产大模型的RAG能力
闲来无事,我测了测国产大模型的RAG能力最近,AI界被推理模型刷屏了。国内各家的推理模型,在新年到来之际不断刷新我们的认知。不过,当我们在实际应用中考量大模型,衡量好不好用的标准,就绝不仅仅局限于其性能和规模了。
搜索
最近,AI界被推理模型刷屏了。国内各家的推理模型,在新年到来之际不断刷新我们的认知。不过,当我们在实际应用中考量大模型,衡量好不好用的标准,就绝不仅仅局限于其性能和规模了。
AI模型可能并没有想象中强大。在最新的AI基准测试「人类最后一次考试」中,所有顶尖LLM通过率不超过10%,而且模型都表现得过度自信。
研究人员首次探讨了大型语言模型(LLMs)在问题生成任务中的表现,与人类生成的问题进行了多维度对比,结果发现LLMs倾向于生成需要较长描述性答案的问题,且在问题生成中对上下文的关注更均衡。
2023年的大模型市场是昂扬的、争先恐后的。2024年的大模型市场是放缓的、冷静取舍的。而在春节前的这一周多时间里,大模型公司们似乎回到了两年前的兴奋状态,一天不止一个重大发布。
1月23日,在第55届世界经济论坛(冬季达沃斯)上,“深度学习”三巨头之一、图灵奖得主、Meta AI首席科学家杨立昆(Yann LeCun),如此对腾讯新闻《一线》透露Meta2025年在AI领域的投资规模。
千诀的大模型已经在多个场景实现了落地,并与多家互联网巨头、3C巨头客户展开了合作。
从《唐探1900》官方微博发布的消息来看,这是电影圈里首款AI动态海报,先来看下效果:不止是在网上,甚至是在北京王府井、上海南京路,以及成都春熙路上,都已经开始播放这个AI海报了!
AGI正在到来,但代价是什么呢?Epoch AI预测:如果AGI完全替代人类劳动,将使人类工资彻底崩溃,跌破生存所需最低水平!到2024年,这个概率将达到1/3。奥特曼也预言:下一代人类,注定被AI碾压。
智能体究竟能否应对现实世界的复杂性?The Agent Company近日提出了一项评估基准,让多个智能体尝试自主运营一个软件公司。结果表明,即使是当前最先进的智能体,也无法自主完成大多数任务。
法国音乐流媒体平台Deezer近日在其官方新闻稿中透露,每天有约10,000首“完全由人工智能生成的曲目”被上传至其平台。这一数字占Deezer每日新增内容的10%左右。尽管与Spotify和Apple Music等巨头相比,Deezer的规模较小,但其每日新增曲目量也达到了约10万首。