chatgpt – bayestalk

前言

最近苹果公司工程师 Iman Mirzadeh发表一篇论文“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”的论文，质疑OpenAI o1的推理能力。

什么是GSM-Symbolic？

OpenAI 2021 年提出的 GSM8K（Grade School Math 8K）小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题，适合使用思维链（CoT）提示等技术，但它只提供了一个固定问题集上的单一指标。论文作者提出了 GSM-Symbolic，这是一个增强的基准，它使用符号模板生成 GSM8K 问题的多样化变体。这使得研究者能够对 LLM 在各种设置中的性能进行更细致和可靠的评估，超越了单点准确度指标。

简而简之，GSM8K是包含一堆了鸡兔同笼问题的试卷，让GPT去进行考试，最后对GPT的成绩进行打分。而GSM-Symbolic是一个更为完备的GSM8K，具备更为丰富的试题，更为完善的考试标准，更专业的阅卷老师。

论文质疑了什么？

论文作者使用GSM-Symbolic对大模型进行测试，评估其在同一个问题的不同变体上的的回答效果。

鸡兔同笼问题

中国古代的数学书籍《孙子算经》，里面就有关于鸡兔同笼问题的描述，在《孙子算经》里，鸡兔同笼问题被叫做雉兔同笼问题。原文是：今有雉、兔同笼，上有三十五头，下有九十四足。问：雉、兔各几何？翻译一下就是：鸡、兔在同一个笼子里，上面有35个头，下面有94只脚。问：鸡、兔各多少只？

回到问题，Iman Mirzadeh的论文质疑了什么？他测试发现：GPT能很好地回答“鸡、兔在同一个笼子里，上面有35个头，下面有94只脚。问：鸡、兔各多少只？” 但是当这个问题发生调整，但本质上仍然是同一个问题的情况下，GPT的表现会下降。

鸡兔同笼问题的变体：

鸡、兔在同一个笼子里，上面有100个头，下面有160只脚。问：鸡、兔各多少只？（改变数字）
鸡、兔在同一个房间里，经过观察发现它们有100个头和160只脚，那么鸡兔各有多少只（改变描述）
更多的变体
1. 增加更多的描述文字
2. 替换问题中的主题名称

这些变体不同，但是本质上仍然是一个问题，而GPT的回答效果确不尽相同，所以问题来了：如果GPT具备真正的推理能力，那么它应该能像人类一样能面对这些变体。

因此Iman Mirzadeh质疑GPT并不具备真正的推理和计算能力，而只是一种复杂的匹配能力。

质疑的哲学和伦理

OpenAI：“好像牛顿建立经典力学，爱意斯坦建立相对论，OpenAI登上了山顶，看到了的绝美风景，ChatGPT就是目前的最最佳范式。”

Apple：“为什么我的试验似乎表明你的范式有问题？你是不是没有登上山顶？我沿着你的路走，会不会掉进坑里? 你想害我不成？”

对普通用户的影响

尽管论文里提到的问题确实存在，但是ChatGPT在实际使用里已经足够惊艳众人，特别是在中国这样一个极度注重实用主义的地方，所以这个质疑或许能帮助我们更好的使用GPT。

优化你的提问用词，精准简洁地描述问题，避免过多无用词的干扰……

2024年更新（忘了几月份）

排名

GPT-4o: by OpenAI/Microsoft，ChatGPT开创者
Claude: by Anthropic，在编程领域非常突出，特别是在Cursor内使用时。
Qwen: by 阿里巴巴
Llama: by Meta
Gemini: by Google
Other

上述五种之外的国内外大模型，使用体验都非常一般，包括马斯克的Grok，抖音的豆包，Kimi，文心一言等等，计算能力和理解能力都较为普通。

总结

ChatGPT付费版本最好，但是收费，费用还不低，而且并不是有钱就能用，还需要注意IP的稳定性，避免使用脏线路，避免频繁更换IP，否则有可能被限制使用。
Claude的付费版也不错，且注册时需要国外的手机号。免费版也还行。
通义千问，国内最佳。

2025年5月更新

时间来到2025年5月份。

deepseek 已经天下皆知，效果也确实非常不错。在中文环境使用，如果不知道选择哪个，deepseek会是一个不差的选择。
谷歌 Gemini 表现很好，进步很大。大家可以多试试，官网在这 https://gemini.google.com/
Chatgpt 较为平庸。以前是带头大哥，现在只能说是仍然位居前列。

标签： chatgpt

ChatGPT具备真正的推理能力吗？

前言