gpt-ossの推論を6倍速に。Thinking OFF設定と、Ollamaで効かない理由 - Qiita

はじめに GMOコネクトの永田です。ローカルLLMの推論をもっと速くしたい！ LLMを利用するタスクによっては1件あたり数十秒〜かかり、処理件数が多いとかなりの処理時間になります。 gpt-ossの場合、推論時間の8割はreasoning tokens、つまりモデルが内部で生成する思考過程です。これをOFFにすればタスクによっては12秒...

qiita2026/04/01 07:140 hot

テクノロジー AI

ポイント

はじめに GMOコネクトの永田です。
ローカルLLMの推論をもっと速くしたい！
LLMを利用するタスクによっては1件あたり数十秒〜かかり、処理件数が多いとかなりの処理時間になります。
gpt-ossの場合、推論時間の8割はreasoning tokens、つまりモデルが内部で生成する思考過程です。

記事プレビュー

はじめに GMOコネクトの永田です。ローカルLLMの推論をもっと速くしたい！

LLMを利用するタスクによっては1件あたり数十秒〜かかり、処理件数が多いとかなりの処理時間になります。 gpt-ossの場合、推論時間の8割はreasoning tokens、つまりモデルが内部で生成する思考過程です。

これをOFFにすればタスクによっては12秒...

全文は出典サイトで確認できます。TopicWave では出典導線を優先して表示しています。

出典を読むトップに戻る

gpt-ossの推論を6倍速に。Thinking OFF設定と、Ollamaで効かない理由 - Qiita

ポイント

記事プレビュー

共有

関連記事

「Geminiより優秀」の声も。NotebookLMを200%使い倒す裏ワザ10選 | ライフハッカー・ジャパン

シークレットと環境変数とAI - ぐるなびをちょっと良くするエンジニアブログ

【アップデート】Amazon Aurora PostgreSQL を数秒で立ち上げ、接続も簡単にできる「エクスプレス構成」が追加されました！ | DevelopersIO

｢まずは日本人を雇うべき｣｢衛生観念の違いが心配｣の声も…モスバーガー《ベトナム人の幹部育成》への嫌悪感の正体

複製不可能なSSH鍵運用のススメ | ドクセル

スクエニ、ドラクエ10にGoogle「Gemini」搭載 AIキャラ自然な会話 - 日本経済新聞

Transformers are Bayesian Networks

Arm、ついにCPU完成品を売る。自社設計のAI向け製品発表

NLP2026の最優秀賞・優秀賞から見る言語処理最前線

スクエニ、ドラクエ10にGoogle「Gemini」搭載　AIキャラ自然な会話 - 日本経済新聞