テクノロジー

1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録

TL;DR PrismMLの1-bit LLM「Bonsai-8B」(1.07GB) をRTX 4080 (16GB) に 8プロセス同時起動 できた 1台で260 tok/s、8台同時リクエストでも全台が2秒以内に応答 アンサンブル推論(7台で回答→1台で統合)を試したが、精度は +1.7pp でほぼ誤差 ファンアウト検索(質問分解→並列深掘り→統合)は構造化に強いがコンテキスト...
zenn2026/04/18 05:390 hot

ポイント

  • TL;DR PrismMLの1-bit LLM「Bonsai-8B」(1.07GB) をRTX 4080 (16GB) に 8プロセス同時起動 できた 1台で260 tok/s、8台同時リクエストでも全台が2秒以内に応答 アンサンブル推論(7台で回答→1台で統合)を試したが、精度は +1.7pp でほぼ誤差 ファンアウト検索(質問分解→並列深掘り→統合)は構造化に強いがコンテキスト...
  • zenn の元記事へ移動して全文を確認できます。
  • 関連カテゴリ: テクノロジー / AI

記事プレビュー

TL;DR PrismMLの1-bit LLM「Bonsai-8B」(1.07GB) をRTX 4080 (16GB) に 8プロセス同時起動 できた 1台で260 tok/s、8台同時リクエストでも全台が2秒以内に応答 アンサンブル推論(7台で回答→1台で統合)を試したが、精度は +1.7pp でほぼ誤差 ファンアウト検索(質問分解→並列深掘り→統合)は構造化に強いがコンテキスト...

共有

全文は出典サイトで確認できます。TopicWave では出典導線を優先して表示しています。