图片大家好,我是 ai 学习的老章
最近工作非常繁忙,写一篇简短的文章
分享三个我经常使用的 deepseek 模型deepseek-r1-0528-qwen3-8b
这是最新版的 deepseek-r1-0528,通过思维链蒸馏提取后对 qwen3-8b-base 进行了训练:deepseek-r1-0528 蒸馏 qwen3:8b 大模型,使用双 4090 显卡本地部署,效果非常好
这个模型有几个特点让我非常喜欢:
成本极低,模型文件大小仅 16gb,默认参数下,两张 4090 显卡即可流畅运行性能很强,无论是各种 bench 测试结果还是个人体验,都能轻松应对参数和模型文件是其四倍大小的 qwen32-b速度非常快,启动时两张 4090 显卡能达到 90tonken/s目前 deepseek-r1-0528-qwen3-8b 我主要用来做知识库意图识别、问题改写、问题分类
缺点:无法关闭思考功能,我用 vllm 启动,在 dify 中即使直接关闭或者在提示词中加 no_think 都没用
deepseek-r1-0528r1 的小版本更新,但是提升明显,性能和推理能力都增强了不少:deepseek r1 最新版本模型,排名第三
这个模型应该算是可以免费使用的最强大的模型之一了吧
网页版我倒是很少用,主要是调 api 接口,主要用于 obsidian 上查资料,翻译,写文章
图片以及在 cursor 上写代码
图片缺点:响应速度较慢,在 cursor 上写代码也不支持 agent 模式
deepseek-v3-fast近期发现的一个小众版本deepseek-v3-fast,它是基于 deepseek v3 0324 版本优化后的极速版本
api 申请地址:
https://www.sophnet.com/#?code=ixfcak
最大的优势就是推理速度,可以说是快如闪电⚡️
图片目前我主要把它用于 obsidian 做内容总结,还有沉浸式插件中当翻译工具(确实非常快)
图片缺点是能力略逊于 r1,表现不太稳定
以上就是我喜欢的三个deepseek版本的详细内容,更多请关注非常游戏网【www.vycc.cn】其他相关内容。
