AI Navigate

インサイト最新記事一覧 AI大全

大規模言語モデルは本当に人間より賢いのか？

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は6つの最先端のLLMにおけるデータ汚染を検証するための3つの相補的な実験を実施し、公的ベンチマークにおける訓練データのリークが顕著であることを明らかにした。
513問のMMLU問題について、語彙的汚染パイプラインは全体の汚染率を13.8%と算出し、哲学分野で最大66.7%に達し、カテゴリ別の推定正確性向上は＋0.030〜＋0.054ポイントである。
間接参照テストでは、平均で約7.0ポイントの正確性低下が見られ、法と倫理の分野では19.8ポイントにまで増加しており、記憶または言い換えられた内容への依存を示している。
行動プローブは、質問の72.5%が暗記シグナルを誘発し、DeepSeek-R1は特徴的な暗記パターンを示し、すべての実験で汚染を STEM > 専門職 > 社会科学 > 人文学の順でランキングした。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/18Dailyインサイトを見る →

関連記事

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

ビジネスのニーズに最適なAIチャットモデル（2026年版）の選び方

ビジネスのニーズに最適なAIチャットモデル（2026年版）の選び方

Dev.to

あなたの“教える声”そのままに授業計画を生成するAIを作った（オープンソース）

あなたの“教える声”そのままに授業計画を生成するAIを作った（オープンソース）

Dev.to

2026年にAIツールを使いこなす方法：包括的ガイド

2026年にAIツールを使いこなす方法：包括的ガイド

Dev.to

AIコーディングのヒント 012 - 自分のコードをすべて理解する

AIコーディングのヒント 012 - 自分のコードをすべて理解する

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。