エントロピー、不一致、そしてゲノミクスにおける基盤モデルの限界

arXiv cs.LG / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エントロピーが、ゲノミクス領域における基盤モデルが自然言語モデルと比べて結果がまちまちになっている主因であると主張する。
DNAとテキストでアンサンブルを学習させることで、著者らは高いゲノム配列エントロピーが次トークン出力をほぼ一様にし、モデル間の強い不一致を生み、静的埋め込みが不安定になることを示す。
実験的フィッシャー情報フローを用いた分析から、DNA学習モデルはトークン間の関係を捉えるのではなく、埋め込み層にフィッシャー情報を集中させることが示唆される。
これらの結果は、配列のみからの自己教師あり事前学習がゲノムデータへうまく転移しない可能性を示し、現在のゲノム基盤モデルの学習アプローチで前提とされている仮定に疑問を投げかける。

要旨: ゲノムにおける基盤モデルは、自然言語処理におけるそれらと比べて、成功はまちまちであることが示されている。にもかかわらず、その限定的な有効性の理由は十分に理解されていない。本研究では、訓練データから学習し、基盤的能力を発達させるようなモデルの能力を制限する基本的要因としてのエントロピーの役割を調査する。私たちは、テキストおよびDNA配列上でモデルのアンサンブルを学習し、それらの予測、静的埋め込み、および経験的フィッシャー情報の流れを分析する。ゲノム配列の高いエントロピー――未見トークン予測の観点から見ると――は、ほぼ一様な出力分布をもたらし、モデル間の不一致を引き起こし、さらに、アーキテクチャ、学習、データが一致しているとしても、静的埋め込みを不安定にすることを示す。次に、DNA上で学習したモデルでは、埋め込み層にフィッシャー情報が集中し、トークン間の関係を活用できていないように見えることを実証する。これらの結果は、配列のみからの自己教師あり学習がゲノムデータには適用できない可能性を示唆しており、ゲノム基盤モデルを訓練するための現在の手法が依拠している仮定に疑問を投げかける。

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

ITmedia AI+

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

Dev.to

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

Dev.to

エントロピー、不一致、そしてゲノミクスにおける基盤モデルの限界

要点

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に 性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール