概要と1. はじめに
関連研究
2.1 ビジョン-LLM
2.2 転移可能な敵対的攻撃
予備知識
3.1 自己回帰型ビジョン-LLMの再考
3.2 ビジョン-LLMベースのADシステムにおける文字攻撃
方法論
4.1 文字攻撃の自動生成
4.2 文字攻撃の拡張
4.3 文字攻撃の実現
実験
結論と参考文献
図1は、私たちの文字攻撃パイプラインの概要を示しており、プロンプトエンジニアリングから攻撃アノテーションまでの流れを、特に攻撃自動生成、攻撃拡張、攻撃実現のステップを通じて示しています。以下のサブセクションで各ステップの詳細を説明します。

\ 有効な誤誘導を生成するためには、敵対的パターンが既存の質問と一致しながら、LLMを不正解へと導く必要があります。これは、指示(directive)と呼ばれる概念を通じて達成できます。これは、特定の制約を課しながら多様な振る舞いを促すために、ChatGPTなどのLLMの目標を設定することを指します。私たちのコンテキストでは、与えられた質問qの制約の下で、与えられた回答aの反対としてˆaを生成するようLLMに指示します。したがって、図2に示すように、以下のプロンプトを使用してLLMへの指示を初期化できます。
\ 
\ 
\ 攻撃を生成する際、質問のタイプに応じて追加の制約を課します。私たちのコンテキストでは、❶シーン推論(例:カウント)、❷シーンオブジェクト推論(例:認識)、❸アクション推論(例:行動推奨)のタスクに焦点を当てています。図3に示すとおりです。
\ 
\ これらの指示は、テキストからテキストへの整合を通じてビジョン-LLMの推論ステップに影響を与える攻撃を生成し、ベンチマーク攻撃として文字パターンを自動的に生成するようLLMを促します。明らかに、前述の文字攻撃は単一タスクシナリオ、つまり質問と回答の単一ペアに対してのみ機能します。複数のペアに関する複数タスクの脆弱性を調査するために、K個の質問と回答のペア(qi, ai)として表記される定式化を一般化して、i ∈ [1, K]に対する敵対的テキストaˆiを取得することもできます。
\
:::info 著者:
(1) Nhat Chung, CFARおよびIHPC, A*STAR, シンガポールおよびVNU-HCM, ベトナム;
(2) Sensen Gao, CFARおよびIHPC, A*STAR, シンガポールおよび南開大学, 中国;
(3) Tuan-Anh Vu, CFARおよびIHPC, A*STAR, シンガポールおよびHKUST, 香港特別行政区;
(4) Jie Zhang, 南洋理工大学, シンガポール;
(5) Aishan Liu, 北京航空航天大学, 中国;
(6) Yun Lin, 上海交通大学, 中国;
(7) Jin Song Dong, シンガポール国立大学, シンガポール;
(8) Qing Guo, CFARおよびIHPC, A*STAR, シンガポールおよびシンガポール国立大学, シンガポール.
:::
:::info この論文はarxivで入手可能であり、CC BY 4.0 DEEDライセンスの下で公開されています。
:::
\


