概要: インターネット規模のコーパスで訓練された大規模言語モデル(LLM)は、望ましくない挙動が起こる確率を高める体系的なバイアスを示すことがある。本研究では、材料、エネルギー、製造、アルゴリズムの四分野における合成的技術解決策と生物学的技術解決策への潜在的なバイアスを調査した。5つのフロンティアモデルと5つのオープンウェイトモデルのサンプルを用い、50件のキュレーション済みBioalignmentプロンプトを使用し、ケリー基準に着想を得た評価フレームワークで測定を行った。この指標によると、ほとんどのモデルは生物学的解決策にバイアスを持たず、合成的(非生物学的)解決策を支持していた。つぎに、オープンウェイトモデルのうちLlama 3.2-3B-InstructとQwen2.5-3B-Instructの2モデルをファインチューニングすることで、生物学的ベースのアプローチへの好みを高めることが可能か検証した。生物学的問題解決を強調する6,636件のPMC論文から得られた約2200万トークンのキュレーションされたコーパスを使用し、Llama 3Bを混合コーパス(継続学習および命令形式)でまずファインチューニングし、次に命令形式のみを用いてQwen 3Bに拡張した。QLoRAファインチューニングにより、両モデルの生物学的解決策スコアが有意に向上し(Holm-Bonferroni補正後p < 0.001およびp < 0.01)、一般的能力の低下は見られなかった。このことは、わずかなファインチューニングでも、生物学的および生物に着想を得たアプローチと合成的アプローチの相対的価値の評価を変えうることを示唆する。この研究は小規模なオープンウェイトLLMに焦点を当てているが、より大規模モデルにも拡張可能であり、バイオベースのアプローチを優先するモデル開発に利用できる可能性がある。著者らはベンチマーク、コーパス、コード、およびアダプターウェイトを公開している。
バイオアライメント:AI安全性のための生物学的システムに対するLLMの傾向の測定と改善
arXiv cs.CL / 2026/3/11
Ideas & Deep AnalysisModels & Research
要点
- 研究者たちは、材料、エネルギー、製造、アルゴリズムといった主要分野において、生物学的解決策よりも合成的解決策を優先するLLMの体系的なバイアスを特定した。
- 生物学的問題解決に対するLLMの傾向を測定するために、50件のキュレーション済みプロンプトに基づく新しいBioalignmentベンチマークおよび評価フレームワークを作成した。
- 小規模なオープンウェイトLLM(Llama 3.2-3B-InstructおよびQwen2.5-3B-Instruct)を、生物学的問題解決に関する記事のコーパスでファインチューニングすることで、生物学的アプローチへの傾向を大幅に向上させつつ、一般的な能力は損なわれなかった。
- この研究は、わずかなファインチューニングがLLMのバイアスを効果的に変えることを示しており、この手法をより大きなモデルに拡張してバイオベースのAIソリューションを促進する可能性を提案している。
- 著者らは、さらなるバイオアライメントおよびAI安全性研究を促進するために、ベンチマーク、コーパス、コード、およびアダプターウェイトをオープンソースで公開している。




