概要と1. はじめに
背景
方法
実験
4.1 マルチホップ推論性能
4.2 ディストラクタを用いた推論
4.3 実世界の知識への一般化
4.4 実行時間分析
4.5 知識の記憶
関連研究
結論、謝辞、参考文献
\ A. データセット
B. ディストラクタを用いた文脈内推論
C. 実装の詳細
D. 適応型学習率
E. 大規模言語モデルを用いた実験
同じ知識セットについて複数の質問に答える必要がある場合、ある質問に関連する知識が別の質問には無関係である可能性があります。例えば、表7では、「チャーリーは白い」という事実は「ハリーは赤い?」という質問に答えるために必要ありません。したがって、知識セットに無関係な情報(つまりディストラクタ)が存在する場合のRECKONINGの堅牢性を評価することが重要です。この実験では、質問に答える際に正しい知識に焦点を当て、ディストラクタを無視するRECKONINGの能力を分析します。評価データセットとしてProofWriterを使用します。これは既に知識にディストラクタが含まれる設定があるためです。体系的な分析のために、コンテキストにディストラクタを徐々に追加していきます(2つから始めて、可能なすべてのディストラクタまで追加します。質問ごとに平均7つあります)。RECKONINGとベースラインをマルチタスク目標を使用して訓練します。モデルは(1)質問に関連するすべての事実とルールを思い出し、(2)正しい知識に基づいて結論を予測する必要があります。この場合、各質問xに対して、外部ループ(式(5))CLM損失はKからの関連する事実に関してのみ計算されるように訓練を適応させ、それによってトレーニング中に関連する事実のみを思い出すことを学習します。
\ 図5では、RECKONINGの性能がディストラクタの下でFT-ICRベースラインよりも一貫して堅牢であることがわかります。コンテキストにすべてのディストラクタを含めると、RECKONINGは考慮された3つのホップ深度の平均として計算されたホップ間の平均ラベル精度(82.5%)を達成し、これはベースライン(70.9%)よりも大幅に高くなっています。さらに、ディストラクタがない場合のパフォーマンスと比較すると、RECKONINGのパフォーマンスは17.1%しか低下しませんが、ベースラインのパフォーマンスは28.6%低下し、ディストラクタから正しい知識を分離する能力がより優れていることを示しています。
\ 最後に、より大きなパラメータサイズを持つモデルへのRECKONINGの一般化可能性も探ります。パラメータ効率の良い微調整方法であるLoRA [33]を採用することで、使用した言語モデルGPT-2-small(124M)をGPT-2-XL(1.5B)にスケールアップします。簡略化のため、最も難しい設定、つまりすべてのディストラクタを含むProofWriter-5-hopでのみモデルを評価します。GPT-2-XL-LoRAでは、文脈内推論はテストセットで65%の精度を達成しますが、私たちのRECKONINGモデルは70.2%の精度を達成し、5%のパフォーマンス向上を示しています。この結果は、モデルのサイズがスケールアップしても、ディストラクタの存在下でのRECKONINGの利点が維持されることを示唆しています。
\
:::info 著者:
(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);
(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);
(3) Eric Mitchell, Stanford University (eric.mitchell@cs.stanford.edu)';
(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);
(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).
:::
:::info この論文は arxivで入手可能 でCC BY 4.0 DEEDライセンスの下で公開されています。
:::
\


