ここにいる皆さんは、さまざまなモデルを動かすための最適化を投稿していますね――それは良いのですが、速度はLLMを効果的に動かすうえで唯一の要因ではないので、これらのベンチマークは現実的にしてください。
- コンテキストサイズが重要です。エージェンティック/コーディング/RAGの作業では適切なctxサイズが必要なので、ベンチマークしたいなら長いセッションで往復(ラウンドトリップ)する、またはより大きいコンテキストを使ってください――これが、現実の環境に近い形で実施する方法です
- マルチモーダルモデルをテストするなら、そのマルチモーダル機能を使ってください。たとえば画像処理を含めた形でベンチマークを実行すると、実世界のシナリオでより価値が出ます
- 具体的なハードウェア構成を明記してください。すべてのカードには別のバリアントがあります
- 並列処理でもベンチマークしてください。エージェンティックな作業では、これも重要です
投稿をコミュニティにとってもっと役立つものにしてください!
[リンク] [コメント]




