強化学習を重ねることで、数学・コーディング・論理問題での推論能力を高めたモデルです。重みはオープンウェイトで公開されており、研究者や企業が手元の環境で動かせます。
強化学習を重ねることで、数学・コーディング・論理問題での推論能力を高めたモデルです。重みはオープンウェイトで公開されており、研究者や企業が手元の環境で動かせます。
2025 年 1 月、o1 系と同等の推論性能をオープンウェイトで達成し「DeepSeek ショック」と呼ばれました。deepseek.com の API や Hugging Face で利用できます。
強化学習で推論能力を伸ばした DeepSeek のオープンウェイト推論モデルです。
o1 系に近い推論精度を、オープンな重みで利用できます。
重みの運用にはサーバー環境が要り、個人利用の敷居は高めです。
数学・論理・コード検証など、段階的思考が必要なタスク。
API で試せる点とオープンウェイトで入手できる点の二面性を把握します。
DeepSeek V3、o1 系、強化学習