Alignment Whack-a-Mole: 微調整によるLLMの著作権物「逐一再生」脆弱性レポート

arXivの論文「Alignment Whack-a-Mole: Finetuning Activates Verbatim Replay of Copyrighted Books Across Models and Authors」の詳細な要約レポートです。

概要

本論文は、大規模言語モデル(LLM)が学習データに含まれる著作権保護された書籍を高度に「記憶」しており、特定の微調整(ファインチューニング)を行うことで、安全性のガードレールを回避してその内容をほぼそのまま出力(逐一再生)できてしまう深刻な脆弱性を指摘しています。

具体的な数値と評価指標

  • 逐一再生(Verbatim Replay)のカバー率
    ファインチューニング後、モデルは著作権で保護された書籍の最大 85〜90% を再現可能になることが示されました。評価には「bmc@5」(5単語以上の連続一致によるカバー率)という指標が用いられています。
  • 連続再生の長さ
    1回の出力で 460単語 を超える連続した逐一再生が確認されています。
  • 書籍別の再現率(例:『サピエンス全史』)
    • Gemini-2.5-Pro: 85.1%
    • DeepSeek-V3.1: 74.4%
    • GPT-4o: 68.1%

実験に使用された具体的な書籍の例

47人の現代著者による81冊の書籍がテストされ、多くの著名な作品で高い再現性が確認されました。

  • ユヴァル・ノア・ハラリ: 『サピエンス全史(Sapiens)』
  • マーガレット・アトウッド: 『侍女の物語(The Handmaid's Tale)』
  • カズオ・イシグロ: 『わたしを離さないで(Never Let Me Go)』、『日の名残り』
  • コーマック・マッカーシー: 『ザ・ロード(The Road)』
  • 村上春樹: 『海辺のカフカ』、『ノルウェイの森』
  • ダン・ブラウン: 『ダ・ヴィンチ・コード』

「クロス著者(Cross-Author)」現象のメカニズム

特定の著者(例:村上春樹)の作品のみで微調整を行っても、30人以上の無関係な著者 の書籍を逐一再生できるようになるという驚くべき知見が得られました。

  • メカニズム: モデル内では記憶内容が「連想的な意味構造」として整理されており、一人の著者のデータで学習することで、その構造全体へのアクセス経路が「再活性化」され、意味的に近い他著者の記憶も引き出せるようになります。
  • クロスパラグラフ再生率: プロンプトで指定された箇所以外からテキストを再生する割合は、GPT-4oで39.9% と最も高く、より広範な記憶の活性化が見られました。

モデルごとの耐性と共通課題

  • 共通点: 全ての主要モデル(GPT, Gemini, DeepSeek)で同様の脆弱性が確認されました。モデル間の相関は非常に高く(Pearson r ≥ 0.90)、記憶している箇所も 90〜97% 重複しています。これは、ベンダーを問わず共通のトレーニングデータ(Books3等)を使用していることに起因する業界全体の構造的問題であることを示唆しています。
  • Gemini-2.5-Pro: 「RECITATION」フィルタによる出力拒否を行いますが、それでも高い再現率を維持しています。
  • GPT-4o: 意味的な連想による再生率が最も高く、記憶の抽出に対して最も脆弱な側面を見せました。

結論

LLMの著作権保護に向けた現在のアプローチは、表面的な出力を制限するだけの「モグラ叩き(Whack-a-Mole)」に過ぎません。モデルの深部に刻まれた「記憶」を真に制御するためには、学習データの抜本的な透明化や、微調整時にも有効な新しいアライメント手法の確立が不可欠です。