Falcon Perception

Hugging Face Blog / 2026/4/1

💬 オピニオンIdeas & Deep Analysis

原文を読む →

共有:

要点

「Falcon Perception」は2026年4月1日に公開された記事で、テーマとして「Falcon Perception」が扱われています。
ただし提示された本文はページのHTML構造（見出し、公開日、タグ等）中心で、内容（技術的説明や主張）の本文テキストが含まれていないため要点を特定できません。
記事ページ上には「Team」のラベルがあり、組織チームによるArticleであることが示されています。
現状の情報だけでは、AI技術の具体（モデル、手法、性能、ユースケース）や業界への影響を判断できません。

記事に戻る

ファルコン・パーセプション

チーム記事公開日 2026年4月1日

FalconPerception

フォロー

tiiuae

Falconロゴ

TL;DR — Falcon Perception は、自然言語プロンプトからオープン語彙のグラウンディングとセグメンテーションを行う 0.6Bパラメータ のアーリー・フュージョン Transformer です。このモデルはハイブリッド注意マスクを用いて 画像パッチ＋テキスト を1つのシーケンスとして処理し、小さく構造化されたトークン・インターフェースと軽量な出力ヘッドによって、可変数のインスタンスを生成します。 SA-Co で Falcon Perception は 68.0 Macro-F1（SAM 3の 62.3 に対して）を達成しており、主に残っているギャップは存在キャリブレーション（MCC 0.64 対 0.82）です。さらに、能力（属性、OCRガイド付きの曖昧性解消、空間制約、関係）ごと、密な長文コンテキストの混雑シーンごとに性能を分解する診断ベンチマークである PBench も導入します。

また、Falcon OCR を公開します。これは 0.3Bパラメータ のモデルで、olmOCR ベンチマークで 80.3、OmniDocBench で 88.6 のスコアを達成し、さらにオープンソース OCR モデルの中で最も高いスループットを備えています。

本投稿は、私たちが構築した内容、そのように構築した理由、そして途中で学んだことを簡潔かつ実践的にまとめたものです。

課題：なぜ認識（perception）システムはパイプラインとして行き着くのか？

多くのオープン語彙（open-vocabulary）の認識（perception）システムは、モジュール化されたパイプラインとして構築されます。すなわち、（多くの場合凍結された）ビジョンのバックボーンが特徴を抽出し、別のフュージョン／デコーダ段階がそれらを言語と結び付け、さらにマッチングやポストプロセスを扱う追加コンポーネントが続きます。この系統の設計は多くの場面でうまく機能しますが、トレードオフも伴います。きれいにスケールさせるのが難しく、改善を正しいコンポーネントに帰属しづらく、そして各失敗モードに対する新しい修正を追加するにつれて複雑さが積み上がりやすいのです。

私たちは、より単純な問いを立てました。適切な注意（attention）パターン、出力インターフェース、学習シグナルを選べば、単一の初期融合（early-fusion）Transformerバックボーンで、認識と言語モデリングの両方を扱えるのだろうか？

実験の結果、その答えは概ね「イエス」です。この投稿の残りでは、その主な設計上の選択肢と、それらを裏付ける証拠を説明します。

アーキテクチャ：初期融合、ハイブリッド注意、効率的な密（dense）インターフェース

1つの自己回帰（autoregressive）Transformerが、画像パッチ、テキスト、タスクトークンからなる統一されたシーケンスを処理します。モデルは固定された順序で物体の属性を予測します：<coord> → <size> → <seg>。バウンディングボックスの座標とサイズは、特殊なヘッドによってデコードされ、その後フーリエ特徴として再注入されます。高解像度のセグメンテーションマスクは、<seg>トークンとアップサンプルされた画像特徴の内積によって生成されます。

1つのバックボーン、2つの挙動

本質的に、Falcon Perception は、画像パッチとテキストトークンを 最初の層から共有パラメータ空間で処理する密（dense）Transformerです。別個のビジョンバックボーンに続いて後段でフュージョンデコーダを行うのではなく、単一のバックボーンを維持し、密な予測（dense prediction）問題を扱えるようにするためのマスキングと軽量な出力インターフェースに依存します。

画像とテキストは構造が異なります。ピクセルは2次元であり双方向の文脈が有利ですが、一方で予測インターフェースは自然には逐次（sequential）です。この違いに対処するために、ハイブリッド注意マスクを用います：

画像トークンは、他のすべての画像トークンに対して双方向に注意し、ビジョンエンコーダのようなグローバルな視覚文脈を構築します。
テキストおよびタスクトークンは、それらより前にあるものすべてに対して因果的に注意します—つまり、完全な視覚プレフィックスに加えて、それ以前のテキストです。

これにより、同じバックボーンが画像トークンに対しては双方向の視覚エンコーダのように振る舞う一方で、タスクトークン上では自己回帰的な予測も可能になります。

知覚の連鎖：密な出力に対する粗いものから細かいものへの教師信号

密な知覚は、固定サイズの予測問題ではありません。画像にはインスタンスがゼロ個の場合も、何百個も含まれていることがあります。自己回帰生成は可変長のインターフェースをきれいに提供しますが、完全な自己回帰による密な生成（例えば、ポリゴンや高解像度マスクをトークンごとに生成すること）を行うと、すぐに高コストになります。

私たちは小さな構造化されたインターフェースであるChain-of-Perceptionを用い、各インスタンスを3つのステップに分解します：

<coord> → <size> → <seg>

座標トークン：モデルはまずインスタンスの中心を予測します——つまり、それがどの物体を指しているのかを解決します。
サイズトークン：次に空間的な広がりを解決します——それがどれくらい大きいのかを明らかにします。
セグメンテーション・トークン：最後に、単一の埋め込みを生成します。これは、アップサンプルされた画像特徴と内積（ドット積）を取ることで、フル解像度の2値マスクを生成します。

この順序には意図があります。まず幾何（ジオメトリ）にコミットすることで曖昧さが減ります（「どのインスタンス？」）、そしてマスク予測ステップが、解決された物体に条件付けられたピクセルの精緻化により近づきます。

専門化されたヘッド、最小オーバーヘッド

バックボーンは共有しつつ、デコーディングでは出力タイプに合わせた軽量なヘッドを使います：

座標 & サイズヘッドはFourier特徴エンコーディングを用います。連続座標を、ランダムなガウス投影によって高次元の正弦波空間へ写像します。これは、ニューラルネットワークのスペクトル・バイアスを克服し、離散ビン分けだけに頼る場合よりも、より正確なローカライゼーションを可能にします。デコードされた座標は、後続トークンの条件付けとして、シーケンスに再注入されます。
セグメンテーション・ヘッドは、<seg>トークンの隠れ状態と、コンテンツに応じてアップサンプルされた画像特徴との内積（ドット積）を計算します。<seg>トークンは幾何の後に生成され、さらに初期融合された視覚コンテキストにアクセスできるため、デコーダベースのインスタンスセグメンテーション学習でしばしば見られる別個のマスククエリ機構やハンガリアンマッチングを回避できます。

PBench：欠けているものを切り分けるために設計されたベンチマーク

RefCOCOのような既存の「指示表現」ベンチマークは飽和しています——モデルは日常的に90%+を達成してしまい、さらに何がうまくいかなかったのかを混ぜてしまっています。モデルが失敗したのは、テキストを読めないからですか？空間的な関係を理解できないからですか？群衆（クラウド）に対応できないからですか？

私たちはPBenchを導入します。これは診断用のベンチマークで、必要とされる主要な能力によってサンプルを分離します：

レベル	能力	例のプロンプト
L0	単純な物体	"car"
L1	属性 & サブタイプ	"red car", "broken fence"
L2	OCRに導かれた識別	"Diet Coke bottle", "Nike shoes"
L3	空間理解	"car on the left", "third window from left"
L4	関係 & 相互作用	"person holding umbrella", "tallest building"
Dense	混雑度のストレステスト	画像あたり数百のインスタンス

それぞれのサンプルは1つだけの主要な能力を狙っています：OCRプロンプトでは空間修飾子を避け、空間プロンプトでは画像内テキストによる曖昧性の解消を避けます。これにより、単一で不透明なスコアではなく能力のプロファイルが得られ、次にどこへ投資すべきか（データ、学習カリキュラム、または学習後の調整）を判断しやすくなります。

訓練：蒸留、大規模データ、そして3段階のレシピ

マルチティーチャー蒸留

ランダムな重みから学習するのではなく（我々のアブレーションでは、セグメンテーションでは不安定でした）、Falcon Perception はマルチティーチャー蒸留によって初期化します。2つの強力な視覚教師が、補完的なシグナルを提供します：

DINOv3（ViT-H）：セグメンテーションに重要な強力なローカル特徴
SigLIP2：オープンボキャブラリ理解のための、言語整合された特徴

蒸留による初期化は、ImageNet-1k でゼロショット精度 74.25%、Pascal VOC で線形プローブ mIoU 85.11% を達成し、知覚（perception）固有の学習に入る前の強力な視覚的基盤を提供します。

データ：54M画像、195Mの肯定的表現、488Mのハードネガティブ

我々は、マルチステージのパイプラインを通じて学習データセットを構築します：

DINOv3埋め込みによる階層クラスタリング：概念のカバレッジが均一になるよう、Webスクレイプした画像を整理します。
VLM駆動のリスティング：画像ごとに、PBenchの複雑度レベル（60%が基本、40%が上級）に分類しながら、密なオブジェクト記述を生成します。
ネガティブマイニング：幻覚（ハルシネーション）に対抗するため、意味的・視覚的・粒度の細かいハードネガティブを生成します。
アンサンブルのコンセンサス — SAM 3、Qwen3-VL-30B、Moondream3 が一致（IoU > 0.8）した場合に、自動受理します。
人手による検証 — 意見の不一致はアノテータに回し、自動システムを混乱させるハードサンプルを回収します。

肯定サンプルと否定サンプルの比率は厳密に 1:1 を維持します。これにより、存在（presence）キャリブレーションを最優先の目的にできます。モデルは、自信があるときだけでなく、確信がない場合には「不在（absent）」と言えるべきです。

3つのステージ（総計700 GT）

ステージ1 — インコンテキスト・リスティング（450 GT）： モデルは、シーンのインベントリを自己回帰的にリスト化する方法を学びます。テキスト表現とそれらの位置を予測します。クエリ間の完全な因果的注意（causal attention）は、「フォーク、次にナイフ、次にプレート」といったオブジェクト共起関係の学習を可能にします。これにより、幅広いシーン理解が構築されます。

ステージ2 — タスク整合（225 GT）： 注意マスクを変更し、クエリがお互いを見ることができないようにします。これは推論時に独立したクエリであることをシミュレートします。テキストトークンに対するロスはマスクされ、勾配シグナルを存在分類とローカライズに完全に集中させます。このステージは、「シーン理解」から「この特定の質問に答えよ」へと移行します。

ステージ3 — 長コンテキストの微調整（10 GT）： マスクの上限を、各表現あたり最大600に引き上げ、最小の定数学習率を用いる短いフェーズです。これにより、先行して獲得した能力を忘れることなく、極端な群衆密度に適応します。

アブレーションで検証された主要な設計上の選択：

特殊ヘッド向けの Muon オプティマイザ（AdamW との比較）— SA-Co 検出で +4.8 ポイント
インスタンスのラスター順序付け（ランダム/サイズ順との比較）— SA-Co でランダム順序より +10 ポイント
Gram 特徴の正則化 — 蒸留特徴からのドリフトを防ぎ、セグメンテーションを +1.5 ポイント改善
ランク間のグローバル・ロス正規化 — FSDP における可変長のパックシーケンスによるバイアスを補正

返却形式: {"translated": "翻訳されたHTML"}

結果

SA-Co: ベストインクラスのマスク品質

SA-Co オープン・ボキャブラリのセグメンテーション・ベンチマークにおいて、Falcon Perception（パラメータ0.6B）は68.0 Macro-F1を達成しています。これはSAM 3の62.3に比べて高く、属性が多い（+8.2）、食べ物＆飲み物（+12.2）、スポーツ用品（+4.0）の各分割で大きな向上が見られます。その一方で、Falcon Perceptionはプレゼンス校正においてSAM 3に劣ります（MCC: 0.64 vs 0.82）。これは残された改善のための、最も明確な軸です。

以下は例です。プロンプト "Falcon" により、正確なインスタンス・マスクが生成されます：

Falcon Perceptionは、参照表現にも対して良好に動作します。動画の各フレームで黒いバンズのハンバーガーを正しくセグメントできます：

PBench: プロンプト複雑性に伴うスケーリング

ここが、早期融合（early-fusion）設計の差が最も大きく表れるところです：

能力	SAM 3	Falcon Perception	ギャップ
L0: 単純な物体	64.3	65.1	+0.8
L1: 属性	54.4	63.6	+9.2
L2: OCR によるガイド	24.6	38.0	+13.4
L3: 空間	31.6	53.5	+21.9
L4: 関係	33.3	49.1	+15.8
Dense	58.4	72.6	+14.2

単純な物体では差は控えめです。プロンプトが、より合成的になるにつれて（OCR による判別のための情報を要求したり、空間制約や関係の結び付けを必要としたりすると）、そのギャップは広がります。

PBench の Dense 分割では、Falcon Perception（0.6B）が、汎用型VLMベースライン（例: 評価設定では 72.6 vs 8.9、Qwen3-VL-30B）を大きく上回り、空間・関係のティアにおいて 8B モデルに匹敵するか、上回っています。

定性的結果：OCR、空間、関係、および Dense

プロンプトがより合成的になるにつれて（OCR による判別のための情報、空間制約、関係の結び付け、あるいは数百のインスタンスへのスケーリングが必要になると）、早期融合の利点が視覚的に明確になります：

OCR によるグラウンディング（レベル2）：識別の手がかりが物体に書かれた文字である場合、Falcon Perception はそれを正しく読み取りますが、SAM 3 は区別できません。
空間理解（レベル3）：プロンプトで空間関係が指定される場合、Falcon Perception は一貫した 2D のシーンマップを形成します。
関係推論（レベル4）：対象が、見た目ではなく「相互作用」によって定義される場合、Falcon Perception はシーンのグラフを理解します。

返却形式: {"translated": "翻訳されたHTML"}

密なシーン：数百件のインスタンスへのスケール：シーンが極端に混雑している場合、固定クエリデコーダは実用上の限界にぶつかりやすいため、自己回帰インターフェースは特に有用です。

レベル 2 — OCR に導かれたグラウンディング：Falcon Perception は曖昧さを解消するために物体上のテキストを読み取ります。一方 SAM 3 はできません。

レベル 2：OCR による識別 — Falcon Perception vs SAM 3

「168 のワインボトル」：Falcon Perception はラベル「168」が付いたボトルを特定します。SAM 3 はすべてのボトルを強調表示します。「ホノルル行きの方向標識」：Falcon はテキストを読み取って、正しい標識を見つけます。

レベル 3 — 空間理解：Falcon Perception は空間的制約を解決します。SAM 3 は誤検出を返します。

レベル 3：空間理解 — Falcon Perception vs SAM 3

「左のグリルの下側の肉の串」、「下部で赤い車の右にある黒い車」、「左にあるベルギーの国旗」— Falcon Perception は空間的制約から正しいインスタンスを解決します。 SAM 3 は複数の候補に対して誤検出を予測します。

レベル 4 — 関係推論：Falcon Perception は相互作用を理解します。SAM 3 は関係的な制約を無視します。

レベル 4：関係推論 — Falcon Perception vs SAM 3

「茶色い丸いパンの隣のペイストリー」、「電話を使っている人」、「手にヘルメットを持っている人」— Falcon Perception は相互作用しているインスタンスを特定します。 SAM 3 は物体クラスのすべてのインスタンスを強調表示し、関係的な制約を無視します。

密なシーン：Falcon Perception は数百のインスタンスにスケールします。SAM 3 のデコーダはクエリトークンが尽きます。

密な分割：Falcon Perception は数百のインスタンスにスケール

「カササギガン（スノーグース）」「鳩」「カラフルな缶詰飲料」— Falcon Perception は自己回帰的に数百のインスタンスをセグメントします。SAM 3 の固定サイズのデコーダは、約 200 インスタンスを超えるとクエリトークンが尽きます。

Falcon OCR：アーリーフュージョンをドキュメント理解へ拡張する

現代の OCR は、きれいなスキャンからテキストを抽出することを大きく超えて進化しています。今日のシステムは、マルチカラムのレイアウト、数式、表、グラフ、多言語コンテンツを、すべて 1 つの処理で扱う必要があります。ほとんどの競合する OCR の VLM はおなじみのレシピで取り組んでいます。つまり、視覚エンコーダが別のテキストデコーダに入力され、さらにタスク固有の結合（グルー）が加わる、という構成です。これらは機能しますが、概して大規模です（1B〜3B+ パラメータ）。

私たちは別の道を選びました：Falcon Perception から得た同じアーリーフュージョンの密な Transformerを再利用しつつ、OCR 用に特化して 0.3B パラメータのより小さなバリアントをゼロから学習させました。その結果が Falcon OCR です。これは、画像パッチとテキストトークンを同一のパラメータ空間において処理し、同じハイブリッド注意マスク（画像トークンには双方向、テキストトークンには因果）を用い、追加のモジュールではなくプロンプトによってタスクを切り替える、単一のバックボーンです。

視覚特徴が OCR に必要とするもの、すなわちきめ細かなグリフ認識やストロークレベルでの識別は、セグメンテーションに有用な物体レベルの特徴とは大きく異なるため、多重教師による蒸留なしでゼロから学習しました。ゼロから始めることで、バックボーンが最初からテキスト最適化された表現を作り上げることができます。

トレーニング

学習は、3 つの主要タスクにまたがるように厳選した英語データの混合物で行います。一般的なドキュメントのテキスト解析（デジタル PDF、古いスキャン、タイプ打ちの書類）、数学および科学の数式認識、表の構造認識です。この混合物には、手書き、現実世界のシーンテキスト、さらにレンダリングされた LaTeX と HTML ソースから生成された合成サンプルも含まれます。学習目的は、構造化されたテキスト出力に対する純粋な次トークン予測です。

学習は 2 段階で進めます。まず、学習率を一定に保つ長い 事前学習（pre-training） では、モデルがすべての要素タイプにわたって OCR の中核的な能力を学習します。次に、学習率をほぼゼロまで減衰させる短い コサイン減衰によるファインチューニング（cosine-decay finetuning） を行います。

ベンチマーク結果

私たちは olmOCR（多様な入力に対する二値の正確性チェック）と OmniDocBench（ページ全体のパースにわたる連続的な指標）で評価します。比較対象のモデルはすべて大幅に大きい、または専用のインフラストラクチャを使用しています。olmOCRでパラメータ0.3BのみのFalcon OCRは80.3%で上位システムから1.7ポイント以内に収まり、マルチカラム（87.1%）および表（90.3%）ではすべてのモデルの中で首位です。OmniDocBenchでは総合88.64で、DeepSeek OCR v2、GPT 5.2、Mistral OCR 3に先行します。

提供スループット

パラメータ0.3Bの時点で、Falcon OCRは0.9B級のOCR VLMよりもおよそ3倍小さいため、提供スループットが直接的に向上します。単一のA100-80GBで、vLLMを高い同時実行（コンカレンシー）設定で測定:

モード	tok/s	img/s	説明
レイアウト + OCR	5,825	2.9	完全なパイプライン: レイアウト検出 → 切り出し → 領域ごとのOCR

コンパクトなフットプリントとvLLM統合（連続バッチ処理、PagedAttention、最適化されたCUDAカーネル）により、数百万ページを処理する大規模な文書のデジタル化に現実的に適用できます。

結果から見えること

より広く言えば、これらの結果は、初期融合のシングルスタックTransformerが、OCRのための「ビジョンエンコーダ + テキストデコーダ」というレシピの実行可能な代替であることを示唆しています。バックボーンは1つ、共有されるパラメータ空間は1つ、デコード用のインターフェースも1つ。さらに、ますます複雑になるパイプラインの代わりに、より良いデータと学習シグナルを得られます。この方向性に向けた取り組みが増えることを期待しています。

定性的な例

Falcon OCRは、照明がさまざまで現実の厳しい条件下で撮影された画像、さまざまなテキストの意味論（数学の数式、構造化された表、手書きメモ）、複雑な文書レイアウトを処理し、構造化されたテキスト出力を生成します。

以下の各カテゴリをクリックして展開します。

手書きと実世界の画像: 困難な条件下でも、手書きテキストの正確な転記と「実世界」からのキャプチャを実現。

Falcon OCR: handwriting and real-world image transcription

Falcon OCRは、照明、向き、内容の複雑さがさまざまな手書き文書や実世界の写真からテキストを抽出します。

表の抽出: 多様な形式にわたって、表形式の構造とセル内容を忠実に再現。

Falcon OCR: table extraction from documents

Falcon OCRは、形式と複雑さの異なる表から、セルの記入内容と構造化レイアウトを正確に再現します。

Mathematical Formulae: 記号の複雑さがさまざまでも、方程式を正確に認識します。

Falcon OCR: mathematical formula recognition

Falcon OCR は、単純な方程式から、入れ子になった演算子を含む複数行の導出までの数学的表現を正しく転記します。

Complex Document Layouts: 複数列・混在コンテンツのドキュメントから、忠実にテキストを抽出します。

Falcon OCR: complex document layout extraction

Falcon OCR は、複数列のレイアウト、図、脚注を含むドキュメントからテキストを抽出する際に、読み順と構造的な忠実さを維持します。

推論：高速・実用的・オープン

リリースには、PyTorchのFlexAttention 上に構築された推論スタックが含まれており、独自の注意（attention）パターンを実用的に表現でき、長さの異なる可変長シーケンスを効率よくパックして提供できます。

ページング推論エンジン

ページングKVキャッシュ：仮想ページテーブル（パディングによる無駄なメモリを消費しない）
連続バッチ処理（Continuous batching）：新しいシーケンスが生成の途中で投入され、完了したものはページを即座に解放
デコードループのCUDAグラフキャプチャ
バックグラウンドでのトークン化をGPU計算とオーバーラップ
HR特徴キャッシュ：LRUキャッシュ。アップサンプルされた画像特徴の非同期GPU-CPU転送のために、ピン留めメモリ（pinned-memory）バッファを使用。同じ画像への後続クエリでは、高価なアップサンプル手順をスキップする

H100上での当社のセットアップでは、典型的なレイテンシはおおむね ~100ms（プリフィル）、~200ms（アップサンプリング：キャッシュがあれば0ms）、~50ms（デコード）で、少数のインスタンスに対してです。（これらの数値は、解像度、シーケンス長、予測されるインスタンス数に依存します。）

Falcon-OCR 向け Docker と MLX の統合

Falcon-OCR モデルについては、素早い導入のための vLLM docker サーバーと、Apple-Silicon 向けの MLX 統合も提供しています

詳細は github リポジトリをご確認ください。

全体像：「苦い教訓」としての知覚（Perception）

Falcon Perception は意図的に最小限です。つまり、1つのバックボーン、1つの目的関数ファミリー、そして出力が連続的で密な箇所にだけ小さなヘッドを用います。作業仮説は、特殊なモジュールでパイプラインを継続的に拡張するのではなく、主な改善はデータ、計算量、学習シグナルから得るべきだというものです。

このアーキテクチャは、明白なスケーリング経路を妨げません。より多くの画像や、より困難なプロンプトを追加してグラウンディングを改善する。言語を改善するためにテキストのみのデータを混ぜる。密なシーンに対応するためにコンテキスト長を増やす。とはいえ、基本的には「1つのシーケンスモデル」です。

Falcon Perception は、アラブ首長国連邦アブダビの Technology Innovation Institute（TII）にある Falcon Vision Team によって開発されています。

引用

Falcon-Perceptionを使用する場合は、次のように引用してください

@article{bevli2026falcon,
  title   = {Falcon Perception},
  author  = {Bevli, Aviraj and Chaybouti, Sofian and Dahou, Yasser and Hacid, Hakim and Huynh, Ngoc Dung and Le Khac, Phuc H. and Narayan, Sanath and Para, Wamiq Reyaz and Singh, Ankit},
  journal = {arXiv preprint arXiv:2603.27365},
  year    = {2026},
  url     = {https://arxiv.org/abs/2603.27365}
}

言及されたモデル

言及されたデータセット

この著者からのその他の投稿

Alyah ⭐️: Toward Robust Evaluation of Emirati Dialect Capabilities in Arabic LLMs

2026年1月27日

Falcon H1R 7Bの紹介

2026年1月5日

コミュニティ

編集プレビュー

テキスト入力にドラッグして、貼り付け、またはここをクリックして、画像・音声・動画をアップロードしてください。

ここをタップまたは貼り付けて、画像をアップロード

· サインアップまたはログインしてコメントしてください

挙手（アップボート）

言及されたモデル

参照されているデータセット

積水化学工業が現在進行中のDXを解説、基幹系の刷新後に進める次の挑戦

日経XTECH

人売りベンダーの経営者は悔い改めよ、今だけSIerを下克上するチャンスあり

日経XTECH

MoEモデルにおける拒否（refusal）レイヤーは方言条件付きの安全性失敗を隠しているのか

Reddit r/MachineLearning

AI Blueについてのメモ――2026年にやってくる“新しい種類の不安”

Dev.to

イーロン・マスク対オープンAIの裁判で「信頼」が大きな論点になる理由

Dev.to

要点

ファルコン・パーセプション

課題：なぜ認識（perception）システムはパイプラインとして行き着くのか？

アーキテクチャ：初期融合、ハイブリッド注意、効率的な密（dense）インターフェース

1つのバックボーン、2つの挙動

知覚の連鎖：密な出力に対する粗いものから細かいものへの教師信号

専門化されたヘッド、最小オーバーヘッド

PBench：欠けているものを切り分けるために設計されたベンチマーク

訓練：蒸留、大規模データ、そして3段階のレシピ

マルチティーチャー蒸留

データ：54M画像、195Mの肯定的表現、488Mのハードネガティブ

3つのステージ（総計700 GT）

結果

SA-Co: ベストインクラスのマスク品質

PBench: プロンプト複雑性に伴うスケーリング

定性的結果：OCR、空間、関係、および Dense

Falcon OCR：アーリーフュージョンをドキュメント理解へ拡張する

トレーニング

ベンチマーク結果

提供スループット

結果から見えること

定性的な例

推論：高速・実用的・オープン

ページング推論エンジン

Falcon-OCR 向け Docker と MLX の統合

全体像：「苦い教訓」としての知覚（Perception）

引用

言及されたモデル

言及されたデータセット

Alyah ⭐️: Toward Robust Evaluation of Emirati Dialect Capabilities in Arabic LLMs

Falcon H1R 7Bの紹介

コミュニティ

言及されたモデル

参照されているデータセット

関連記事

積水化学工業が現在進行中のDXを解説、基幹系の刷新後に進める次の挑戦

人売りベンダーの経営者は悔い改めよ、今だけSIerを下克上するチャンスあり

MoEモデルにおける拒否（refusal）レイヤーは方言条件付きの安全性失敗を隠しているのか

AI Blueについてのメモ――2026年にやってくる“新しい種類の不安”

イーロン・マスク対オープンAIの裁判で「信頼」が大きな論点になる理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer