DeepSeek が公開する汎用テキスト生成モデルです。総パラメータ 671B のうち推論時は 37B のみを使う MoE 構造で高性能と低コストを両立し、商用利用可能です。
DeepSeek が公開する汎用テキスト生成モデルです。総パラメータ 671B のうち推論時は 37B のみを使う MoE 構造で高性能と低コストを両立し、商用利用可能です。
学習コスト約 558 万ドル(GPT-4 比 1/10)という報道で注目を集め、AI コスト論の文脈で名前が出ます。Hugging Face でウェイトが公開され、ローカル実行でも登場します。
DeepSeek 製の汎用オープンウェイトモデルです。
MIT ライセンスで商用利用でき、コストも低めです。
中国発で学習データの詳細は非公開のため要確認です。
低コストで高性能なモデルをローカル実行したい場面です。
MoE 構造と MIT ライセンスの 2 点が最初のポイントです。
Mixture of Experts、DeepSeek R1、ファインチューニング