トップ総合テクノロジー AI ビジネスエンタメ世の中スポーツライフスタイル健康学びゲーム・アニメフード SNS話題掲示板 YouTube おもしろ

テクノロジー

1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録

TL;DR PrismMLの1-bit LLM「Bonsai-8B」(1.07GB) をRTX 4080 (16GB) に 8プロセス同時起動できた 1台で260 tok/s、8台同時リクエストでも全台が2秒以内に応答アンサンブル推論（7台で回答→1台で統合）を試したが、精度は +1.7pp でほぼ誤差ファンアウト検索（質問分解→並列深掘り→統合）は構造化に強いがコンテキスト...

zenn2026/04/18 05:390 hot

テクノロジー AI

ポイント

TL;DR PrismMLの1-bit LLM「Bonsai-8B」(1.07GB) をRTX 4080 (16GB) に 8プロセス同時起動できた 1台で260 tok/s、8台同時リクエストでも全台が2秒以内に応答アンサンブル推論（7台で回答→1台で統合）を試したが、精度は +1.7pp でほぼ誤差ファンアウト検索（質問分解→並列深掘り→統合）は構造化に強いがコンテキスト...
zenn の元記事へ移動して全文を確認できます。
関連カテゴリ: テクノロジー / AI

記事プレビュー

TL;DR PrismMLの1-bit LLM「Bonsai-8B」(1.07GB) をRTX 4080 (16GB) に 8プロセス同時起動できた 1台で260 tok/s、8台同時リクエストでも全台が2秒以内に応答アンサンブル推論（7台で回答→1台で統合）を試したが、精度は +1.7pp でほぼ誤差ファンアウト検索（質問分解→並列深掘り→統合）は構造化に強いがコンテキスト...

共有

全文は出典サイトで確認できます。TopicWave では出典導線を優先して表示しています。

出典を読むトップに戻る