| 私は AgentTape を作りました。既存のモデル・リーダーボードが、私が興味を持っていることすべてをうまくカバーしていなかったからです。ベンチマークの性能はその一部ですが、それだけでなく、誰が実際にそのモデルを使っているのか、誰がそれについて話しているのか、そしてコストや速度の面でどう比較されているのかも重要だと考えています。 このサービスは、GitHub、Hugging Face、OpenRouter、MCP のレジストリ、npm、PyPI、arXiv、Hacker News などから1時間ごとのデータを取得し、各公開されている AI エージェントおよび基盤モデルをスコア付けして比較します。 現在もスコアリング手法を調整中です(まだ始まったばかりなので)。もし役に立つようであれば、皆さんのご意見をぜひ聞かせてください。また、こちらの考え違いがあると思う点があれば、それも教えてください! [link] [comments] |
オープンソースで「すべてのAIエージェントと基盤モデル」をライブランキング化した
Reddit r/artificial / 2026/5/20
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- この記事では、ベンチマーク性能だけに留まらないことを目的にした、AIエージェントと基盤モデルのライブランキング「AgentTape」が紹介されています。
- AgentTapeはGitHub、Hugging Face、OpenRouter、MCPレジストリ、npm、PyPI、arXiv、Hacker Newsなどから毎時データを集約し、モデル/エージェントをスコアリングします。
- スコアリングは性能に加えて、利用状況や話題性といった現実の採用シグナルを反映しようとしています。
- コストや速度なども他の要素と並べて比較できるよう設計されており、ただし手法はまだ調整中だと作者は述べています。
- 作成者は、初期段階のスコアリング方針についてのフィードバックや誤りの指摘を求めています。
