表データにおける演算スケッチと自己教師あり学習による数値推論の汎化

arXiv cs.LG / 2026/4/24

📰 ニュースModels & Research

共有:

要点

本論文は、表に基づく数値推論でよく見られる制約として、特定データセット内では高精度でもドメインシフトに弱い点（ヘッダーからのショートカット学習）が問題だと指摘しています。
TaNOS（Continual pre-training）という枠組みを提案し、(i) ヘッダーの匿名化、(ii) 最小限の構造手がかりを与える「演算スケッチ」、(iii) 表からプログラム先行で正解保証付きのプログラム-質問ペアを作る自己教師あり事前学習の3要素を用います。
ドメインの意味論と数値演算の構造を分離することで、数値推論の転移可能性（汎化性）を高めます。
FinQAでは、8Bの指示チューニングモデルでTaNOSを用いると、学習データの10%のみで実行精度80.13%に達し、全データで学習したSFTベースライン（73.97%）を上回り、本文中で挙げられたプロプライエタリ製品も上回ると報告しています。
ドメインシフト実験では、TaNOSはクロスドメインのギャップが2ポイント未満とほぼ無視できる一方、標準SFTは10ポイント超のギャップを示し、頑健性の改善が大きいことが示されています。

Abstract

専門領域の表に対する数値推論は、多くの場合、同一領域での精度は高い一方で、領域の変化（domain shift）に対する頑健性が限定的であることが多い。特定のデータセットで教師あり微調整（SFT）により学習したモデルは、構造に基づく推論よりも、ヘッダーに関する操作の近道（ショートカット）に依存する傾向がある。私たちは、3つの要素から成る継続的事前学習フレームワーク TaNOS を提案する: （i）語彙の記憶（lexical memorization）を抑えるためのヘッダーの匿名化、（ii）最小限の構造的手掛かりを与える操作スケッチ、（iii）与えられた表からプログラムを最初に考える方針（program-first manner）で、正しさが保証されたプログラム—質問ペアを構築する自己教師あり事前学習。ドメインの意味論と数値演算の構造を切り離すことで、TaNOS は数値推論の転移可能性を高める。8Bの命令チューニング済みモデルに適用したところ、TaNOS は学習データを10%しか使わないにもかかわらず、FinQA で実行精度 80.13% を達成し、フルの学習データを用いる SFT ベースライン（73.97%）および GPT-5、Gemini-2.5-Pro といった独自モデルを上回った。さらに、ドメイン変化の実験では、標準的な SFT が 10pp 超のギャップを示すのに対し、TaNOS はクロスドメイン・ギャップがほぼ無視できる程度（<2pp）にとどまる。これらの結果は、操作スケッチによる構造的ガイダンス、ヘッダーに依存しない表現、そして正しさが保証された自己教師あり学習が、多様な専門領域テーブルにまたがる数値推論の頑健性を改善し得ることを示唆している。

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

Dev.to

DeepSeek-V4、HuaweiのAscendチップで稼働率85%——AIインフラと価格にとって意味すること

Dev.to

表データにおける演算スケッチと自己教師あり学習による数値推論の汎化

要点

Abstract

関連記事

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

DeepSeek-V4、HuaweiのAscendチップで稼働率85%——AIインフラと価格にとって意味すること

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer