2026 · 05 · 25 · 月

5/25 のアップデート

AIエージェントがWeb操作と巨大モデル推論で具体的な数字を出しました。コーディングではGoogleが公式Skillsを配布し、フックでのルール強制も広がっています。

A · Theme of the day

AI エージェントが実測値で「使える」を証明した

Web操作と巨大モデル推論の両方で、エージェントの実力が数字になった日です。

以前との違い

先月までのWebエージェントはクリックを逐次判断する方式で、長いタスクは途中で詰まりがちでした。GPT-5.4単体のOdysseys通過率は33.5%でした。

何が起きたか

Microsoft Researchが5月24日、Webwrightを公開。クリック操作を再利用可能なPlaywrightスクリプトに置き換え、Odysseysで60.1%（GPT-5.4単体は33.5%）を記録。

なぜ重要か

フォーム入力やデータ収集の自動化が本番運用を見据えた話になります。ただ高度な判断が絡む長いタスクはまだ怪しく、人が監視しながら使う段階です。

以前との違い

ここ2年、Cerebrasはウェハスケール構造を売りにしつつ、1T級での実測値はほぼ皆無でした。GPU比の速度差が数字になるのは今回がほぼ初です。

何が起きたか

Cerebrasが1TパラメータのKimi K2.6（Moonshot AI）で981トークン/秒を計測。次点GPUクラウド比6.7倍速を独立第三者が検証しました。

なぜ重要か

応答速度がネックのチームには有力な選択肢です。ただ提供は専用API経由で、ファインチューニング等の自由度はまだ低い点には注意です。

B · Theme of the day

AIコーディングへの「ルール渡し」が公式化・自動化へ動いています。

以前との違い

半年前まで、FlutterのAIコーディングは古いAPIやdeprecatedなウィジェットを出しがちでした。コミュニティの非公式ルール集で補うも、正しさの判断は各自任せでした。

何が起きたか

Googleが5月24日「Dart & Flutter Agent Skills」を公開。最新ベストプラクティスをAIエージェントに直接渡せる公式Skillsセットです。

なぜ重要か

Flutterエンジニアは「これ最新の書き方?」と疑う手間が減ります。選定基準としても「AIとの相性」が浮上。他スタックには関係薄めです。

以前との違い

ここ半年「毎回同じルールを書き直す」が頻出の悩みでした。Skillsで参照はされるものの、AIが従わないときに止める手段はありませんでした。

何が起きたか

Claude Codeでルールをフックで機械的に強制するパターンが開発者コミュニティに拡大。Skillsが書き方を定め、フックが逸脱をブロックする補完関係です。

なぜ重要か

定形ミスをフックで提出前にブロックでき、レビューの集中先を絞れます。個人開発でゆるく使う人にはここまでの設計は過剰かもしれません。

サイトに反映された変更を日次でアーカイブしています。