この記事では、RECKONINGフレームワークにおいて、適応型の各ステップ・各レイヤーごとの学習率が不可欠であることを確認するアブレーション研究を紹介しています。この記事では、RECKONINGフレームワークにおいて、適応型の各ステップ・各レイヤーごとの学習率が不可欠であることを確認するアブレーション研究を紹介しています。

アブレーション研究がRECKONINGのパフォーマンスに動的レートの必要性を確認

2025/10/29 23:38
5 分で読めます
本コンテンツに関するご意見・ご感想は、crypto.news@mexc.comまでご連絡ください。

概要と1. はじめに

  1. 背景

  2. 方法

  3. 実験

    4.1 マルチホップ推論性能

    4.2 ディストラクタを含む推論

    4.3 実世界の知識への一般化

    4.4 実行時間分析

    4.5 知識の記憶

  4. 関連研究

  5. 結論、謝辞、参考文献

\ A. データセット

B. ディストラクタを含むインコンテキスト推論

C. 実装の詳細

D. 適応型学習率

E. 大規模言語モデルを用いた実験

D 適応型学習率

先行研究[3, 4]では、ステップとパラメータ間で共有される固定学習率はシステムの一般化性能に寄与しないことが示されています。代わりに、[3]では

\ 表8:CLUTRR-SGデータセットからの6ホップ推論の例。

\ 表9:ProofWriterデータセットにおけるディストラクタ(黒)と関連知識(赤)の例。

\ 内部ループの各ネットワーク層と各適応ステップに対する学習率を学習することを推奨しています。層パラメータは各ステップで学習率を動的に調整することを学習できます。内部ループで学習率αを適応的に制御するために、αを調整可能な変数のセットとして定義します:α = {α0, α1, …αL}、ここでLは層の数であり、すべてのl = 0, …, Lに対して、αlは事前定義された内部ループステップ数Nが与えられたN要素のベクトルです。内部ループの更新式は次のようになります

\

\

\ RECKONINGの性能に動的学習率は必要か? メタ学習に関する先行研究[3, 4]に従い、RECKONINGのためにステップごと・層ごとの学習率のセットを動的に学習します。このアブレーション研究では、内部ループの動的学習率が外部ループの推論性能を効果的に向上させるかどうかを分析します。同様に、他の実験設定を固定し、内部ループのステップ数を4に設定します。図8に示すように、静的学習率(つまり、すべての層と内部ループステップが一定の学習率を共有する)を使用すると、性能は大幅に低下します(平均34.2%の低下)。この性能低下は、より多くの推論ホップを必要とする質問でより顕著になります(4ホップで45.5%の低下、6ホップで39.5%の低下)。これは、フレームワークの内部ループで動的学習率を使用することの重要性を示しています。

\ 図8:内部ループにおける動的学習率が外部ループの性能にどの程度寄与するかを研究します。動的または固定学習率を使用するオプションを除いて、すべてのハイパーパラメータを固定します。CLUTRR-SGデータセットはより複雑で難しい(ランダム性能が低い)ため、このデータセットを使用して分析を行います。

\

:::info 著者:

(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);

(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);

(3) Eric Mitchell, Stanford University (eric.mitchell@cs.stanford.edu)';

(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);

(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).

:::


:::info この論文は arxivで入手可能 であり、CC BY 4.0 DEEDライセンスの下で公開されています。

:::

\

市場の機会
Solayer ロゴ
Solayer価格(LAYER)
$0.08203
$0.08203$0.08203
+0.14%
USD
Solayer (LAYER) ライブ価格チャート
免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために crypto.news@mexc.com までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。

USD1ジェネシス:手数料0 + 12%のAPR

USD1ジェネシス:手数料0 + 12%のAPRUSD1ジェネシス:手数料0 + 12%のAPR

新規ユーザー限定:最大600%のAPRでステーキング。期間限定!