标签: DeepSeek

  • 部署本地DeepSeek大模型时,怎么选择合适的模型文件?

    问题是什么?

    大家都知道deepseek开源了大模型,可能想本地部署试试效果如何,去各个大模型平台看了一遍,这时候部分人可能会很奇怪,为什么这些平台官方推荐的deepseek大模型都是“DeepSeek-R1-Distill-Qwen” 这种?deepseek和Qwen有什么关系?什么是Distill?

    什么是DeepSeek,Distill,Qwen?

    • DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型 。DeepSeek-R1的强项之一是具有很强的推理能力。
      • 数据搜索能力
    • Qwen,阿里巴巴的大模型,强项是具有较为丰富的参数。
      • 丰富的数据
    • Distill,蒸馏这个过程,就是结合两者的优势,组合成一个新的大模型。
      • 强大的数据集 + 强大的推理计算能力

     

    综上,DeepSeek-R1-Distill-Qwen 类似一种果树的嫁接技术,将deepseek的推理能力嫁接到Qwen的数据里。

    怎么选择适合自己硬件大模型?

    • DeepSeek-R1-Distill-Qwen-32B-IQ3_M.gguf, 14.81GB
    • DeepSeek-R1-Distill-Qwen-7B-f16.gguf, 15.24GB

    以这两个模型为例,它们大小相近,但大多数情况下,2优于1。

    • 1具有320亿参数,IQ3_XS代表了一种平衡性能与效率的量化策略,量化过程可能会导致一定的精度损失,但是它仍然保留了大量的原始信息。
    • 2只有基于70亿参数,没有经过裁剪或量化处理。理论上可以提供最接近于原始训练模型的性能,特别是在准确性和细节处理方面。但是由于参数量较少,它可能在理解和生成复杂文本时不如32B版本。

    这其实是个复杂、需要综合考虑的问题。一般而言,越接近原始大模型的版本最好,但是普通用户受限于显卡算力,只能选择修剪后的版本。

    16GB显存的显卡,一般选择7b,14b参数,跑32b会有压力。因此如果你是最新的5090显卡,就可以更大参数的。

     

     

     

  • GPT语言大模型个人使用体验排名。

    2024年更新(忘了几月份)

    排名

    1. GPT-4o:  by OpenAI/Microsoft,ChatGPT开创者
    2. Claude: by Anthropic,在编程领域非常突出,特别是在Cursor内使用时。
    3. Qwen: by 阿里巴巴
    4. Llama: by Meta
    5. Gemini: by Google
    6. Other

    上述五种之外的国内外大模型,使用体验都非常一般,包括马斯克的Grok,抖音的豆包,Kimi,文心一言等等,计算能力和理解能力都较为普通。

    总结

    1. ChatGPT付费版本最好,但是收费,费用还不低,而且并不是有钱就能用,还需要注意IP的稳定性,避免使用脏线路,避免频繁更换IP,否则有可能被限制使用。
    2. Claude的付费版也不错,且注册时需要国外的手机号。免费版也还行。
    3. 通义千问,国内最佳。

     

    2025年5月更新

    时间来到2025年5月份。

    • deepseek 已经天下皆知,效果也确实非常不错。在中文环境使用,如果不知道选择哪个,deepseek会是一个不差的选择。
    • 谷歌 Gemini 表现很好,进步很大。大家可以多试试,官网在这 https://gemini.google.com/
    • Chatgpt 较为平庸。以前是带头大哥,现在只能说是仍然位居前列。