フェルマー距離にもとづく高次元セミ教師あり分類

arXiv stat.ML / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、ラベル付きデータが少なく未ラベルデータが大量にある状況での高次元セミ教師あり分類を扱い、データがマニフォールド上にありクラスタ構造を持つという仮定を活用します。
フェルマー距離（クラスタ仮定を自然に符号化する密度感受的な距離）に基づき、加重付きk近傍法（k-NN）分類器と、マルチ次元尺度構成（MDS）によって誘導される分類器を提案しています。
理論面では、クラスタ内での期待超過リスクに対する鋭い下界を導出し、真のフェルマー距離を用いる加重付きk-NNがミニマックス最適であることを証明します。
未ラベルデータの有効性も定量化しており、フェルマー距離推定に伴う誤差が、プールしたサンプルサイズに対して指数関数的に減衰することを示します。
合成データと実データの実験では、提案手法が先行するグラフベースのセミ教師あり分類器と比べて同等以上の性能を示すことが報告されています。

要旨: ラベルなしデータが大量である一方、ラベル付きデータは限られているという状況で生じる半教師あり分類は、機械学習の応用においてしばしば現れます。本研究では、準解析的データ（高次元データ）に対して、マンフォールド仮定とクラスター仮定を活用することでこの課題に取り組みます。クラスター仮定を自然に符号化する密度に敏感な距離であるフェルマー距離に基づき、加重付き $k$ 近傍（NN）分類器と、MDS（多次元尺度構成法）に誘導される分類器を提案します。大きな目標次元を用いる MDS により、複雑なマンフォールドデータに対して線形分類器を効果的に適用できるようになります。理論的に、クラスター内での期待超過リスクに対する鋭い下界を導出し、真のフェルマー距離を用いた加重付き $k$ -NN 分類器がミニマックス最適であることを証明します。さらに、フェルマー距離の推定に起因する誤差が、プールされたサンプルサイズに対して指数関数的に減衰することを示すことで、ラベルなしデータの有用性を明示的に定量化します。この減衰率は、関連する文献で報告されている率よりもはるかに速いものです。合成データおよび実データに対する大規模な実験により、提案手法が、最先端のグラフベース半教師あり分類器と比べて競争的、あるいは優れた性能を示すことが確認されます。

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

DeepSeek V4がリリース：1.6Tパラメータ、1Mコンテキスト、そして驚異的な低価格

Dev.to

インテリジェント・オートメーション連携の理解：初心者のための完全ガイド

Dev.to

AI時代の幕開け：2025年の振り返りとまとめ

Dev.to

GEOの新時代：トラフィックジェネレーターAIがゲームを変える方法

Dev.to

フェルマー距離にもとづく高次元セミ教師あり分類

要点

関連記事

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

DeepSeek V4がリリース：1.6Tパラメータ、1Mコンテキスト、そして驚異的な低価格

インテリジェント・オートメーション連携の理解：初心者のための完全ガイド

AI時代の幕開け：2025年の振り返りとまとめ

GEOの新時代：トラフィックジェネレーターAIがゲームを変える方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer