テクノロジー

gpt-ossの推論を6倍速に。Thinking OFF設定と、Ollamaで効かない理由 - Qiita

はじめに GMOコネクトの永田です。 ローカルLLMの推論をもっと速くしたい! LLMを利用するタスクによっては1件あたり数十秒〜かかり、処理件数が多いとかなりの処理時間になります。 gpt-ossの場合、推論時間の8割はreasoning tokens、つまりモデルが内部で生成する思考過程です。これをOFFにすればタスクによっては12秒...
qiita2026/04/01 07:140 hot

ポイント

  • はじめに GMOコネクトの永田です。
  • ローカルLLMの推論をもっと速くしたい!
  • LLMを利用するタスクによっては1件あたり数十秒〜かかり、処理件数が多いとかなりの処理時間になります。
  • gpt-ossの場合、推論時間の8割はreasoning tokens、つまりモデルが内部で生成する思考過程です。

記事プレビュー

はじめに GMOコネクトの永田です。 ローカルLLMの推論をもっと速くしたい!

LLMを利用するタスクによっては1件あたり数十秒〜かかり、処理件数が多いとかなりの処理時間になります。 gpt-ossの場合、推論時間の8割はreasoning tokens、つまりモデルが内部で生成する思考過程です。

これをOFFにすればタスクによっては12秒...

共有

全文は出典サイトで確認できます。TopicWave では出典導線を優先して表示しています。