标签: chatgpt

  • ChatGPT具备真正的推理能力吗?

    前言

    最近苹果公司工程师 Iman Mirzadeh发表一篇论文“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”的论文,质疑OpenAI o1的推理能力。

    什么是GSM-Symbolic?

    OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集上的单一指标。论文作者提出了 GSM-Symbolic,这是一个增强的基准,它使用符号模板生成 GSM8K 问题的多样化变体。这使得研究者能够对 LLM 在各种设置中的性能进行更细致和可靠的评估,超越了单点准确度指标。

    简而简之,GSM8K是包含一堆了鸡兔同笼问题的试卷,让GPT去进行考试,最后对GPT的成绩进行打分。而GSM-Symbolic是一个更为完备的GSM8K,具备更为丰富的试题,更为完善的考试标准,更专业的阅卷老师。

    论文质疑了什么?

    论文作者使用GSM-Symbolic对大模型进行测试,评估其在同一个问题的不同变体上的的回答效果。

    鸡兔同笼问题

    中国古代的数学书籍《孙子算经》,里面就有关于鸡兔同笼问题的描述,在《孙子算经》里,鸡兔同笼问题被叫做雉兔同笼问题。原文是:今有雉、兔同笼,上有三十五头,下有九十四足。问:雉、兔各几何?翻译一下就是:鸡、兔在同一个笼子里,上面有35个头,下面有94只脚。问:鸡、兔各多少只?

    回到问题,Iman Mirzadeh的论文质疑了什么?他测试发现:GPT能很好地回答“鸡、兔在同一个笼子里,上面有35个头,下面有94只脚。问:鸡、兔各多少只?” 但是当这个问题发生调整,但本质上仍然是同一个问题的情况下,GPT的表现会下降。

    鸡兔同笼问题的变体:

    1. 鸡、兔在同一个笼子里,上面有100个头,下面有160只脚。问:鸡、兔各多少只?(改变数字)
    2. 鸡、兔在同一个房间里,经过观察发现它们有100个头和160只脚,那么鸡兔各有多少只(改变描述)
    3. 更多的变体
      1. 增加更多的描述文字
      2. 替换问题中的主题名称

    这些变体不同,但是本质上仍然是一个问题,而GPT的回答效果确不尽相同,所以问题来了:如果GPT具备真正的推理能力,那么它应该能像人类一样能面对这些变体。

    因此Iman Mirzadeh质疑GPT并不具备真正的推理和计算能力,而只是一种复杂的匹配能力。

    质疑的哲学和伦理

    OpenAI:“好像牛顿建立经典力学,爱意斯坦建立相对论,OpenAI登上了山顶,看到了的绝美风景,ChatGPT就是目前的最最佳范式。”

    Apple:“为什么我的试验似乎表明你的范式有问题?你是不是没有登上山顶?我沿着你的路走,会不会掉进坑里? 你想害我不成?”

    对普通用户的影响

    尽管论文里提到的问题确实存在,但是ChatGPT在实际使用里已经足够惊艳众人,特别是在中国这样一个极度注重实用主义的地方,所以这个质疑或许能帮助我们更好的使用GPT。

    优化你的提问用词,精准简洁地描述问题,避免过多无用词的干扰……

  • GPT语言大模型个人使用体验排名。

    2024年更新(忘了几月份)

    排名

    1. GPT-4o:  by OpenAI/Microsoft,ChatGPT开创者
    2. Claude: by Anthropic,在编程领域非常突出,特别是在Cursor内使用时。
    3. Qwen: by 阿里巴巴
    4. Llama: by Meta
    5. Gemini: by Google
    6. Other

    上述五种之外的国内外大模型,使用体验都非常一般,包括马斯克的Grok,抖音的豆包,Kimi,文心一言等等,计算能力和理解能力都较为普通。

    总结

    1. ChatGPT付费版本最好,但是收费,费用还不低,而且并不是有钱就能用,还需要注意IP的稳定性,避免使用脏线路,避免频繁更换IP,否则有可能被限制使用。
    2. Claude的付费版也不错,且注册时需要国外的手机号。免费版也还行。
    3. 通义千问,国内最佳。

     

    2025年5月更新

    时间来到2025年5月份。

    • deepseek 已经天下皆知,效果也确实非常不错。在中文环境使用,如果不知道选择哪个,deepseek会是一个不差的选择。
    • 谷歌 Gemini 表现很好,进步很大。大家可以多试试,官网在这 https://gemini.google.com/
    • Chatgpt 较为平庸。以前是带头大哥,现在只能说是仍然位居前列。