反向和错位图灵测试:GPT-4比人类更「人性化」!
反向和错位图灵测试:GPT-4比人类更「人性化」!由AI生成的内容渐渐充斥了互联网。
由AI生成的内容渐渐充斥了互联网。
即便是最强大的语言模型(LLM),仍会偶尔出现推理错误。除了通过提示词让模型进行不太可靠的多轮自我纠错外,有没有更系统的方法解决这一问题呢?
OpenAI的下一代前沿模型GPT Next,或许真的有着落了。KDD 2024峰会上,发言人再次称,虽然GPT-3和GPT-4的能力相对接近,但GPT Next预计将取得实质性地性能跃升。
一直否定AI的回答会怎么样?GPT-4o和Claude有截然不同的表现,引起热议。
免训练多模态分割领域有了新突破!
提示工程师Riley Goodside小哥,依然在用「Strawberry里有几个r」折磨大模型们,GPT-4o在无限次PUA后,已经被原地逼疯!相比之下,Claude坚决拒绝PUA,是个大聪明。而谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。
快速更迭的开源大模型领域,又出现了新王:Reflection 70B。 横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。 这个新模型 Reflection 70B,来自 AI 写作初创公司 HyperWrite。
开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。新模型名为Reflection 70B,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。
大模型卷了一年后之后,今年 OpenAI 发布的节奏明显放缓,但最新的模型已经在路上了。
训练代码、中间 checkpoint、训练日志和训练数据都已经开源。