汚染された生成AIデータセット

 

 *リンクは赤字で表示しています。

 

2022年5月ドイツの非営利団体LAIONLarge-scale Artificial Intelligence Open Network58億5000万の画像とテキストのペアを収めたAIトレーニングデータセットLAION-5Bをリリースしました。これらの画像とテキストはネット上のデータを提供するCommon Crawl(コモン・クロール)のファイルを解析し、類似性の高い画像とテキストのペアを抽出するという手法で収集されており、製作者も中身を正確に把握することはできません(人間の目で確認できる量ではありません)。人間がキュレーションしていないため、ネット上の有害なコンテンツが含まれていることは自明でした。ゆえに直ちに使う製品の作成に使用することは推奨しない免責事項に書かれていますが、利用者には無視されています。

 

トレーニングデータセットとは、機械学習モデルを構築するために用いられる学習用データセットのことです。

人気の画像生成モデルStable DiffusionはLAION-5Bを使用して製作され、Midjourneyも使用しているといわれています。

そのトレーニングデータセットに有害なコンテンツが含まれているために有害なコンテンツの生成に利用され、問題を引き起こしています。また著作権者の許諾を得ずに多数の著作物を使用していることも「フェアユースではない」という批判を浴びて複数の訴訟を起こされ、開発企業の拠点である米国で判決が出ていない状況です。現時点で合法だというのは早計です。


Stable Diffsion3は無断学習に対する批判を受けて、初めて権利者のオプトアウト(学習からの除外)要請に応じて製作されたモデルです。それまでの経過を簡単に辿ってみます。

 

2022年9月、Spawningが開発した検索サイトHaveIbeenTrainedが導入され、LAION-5B内のデータをキャプションと画像で検索できるようになりました。多くのアーティストはそれまで自分の作品が学習に使われていることを知りませんでした。無断学習されていることを知り抗議する権利者に対応し、12月、SpawningはHaveIbeenTrainedにデータをオプトアウトする機能を追加し、Stable Diffusion3のトレーニングから適用することが約束されました。

 

2023年5月30日、SpawningはHugging Face、Stability AIなどのAI研究者やパートナーのネットワークにai.txtファイルで設定されたパーミッションの伝達を開始オプトアウト要請が始まりました。

 

LAION-5Bに有害コンテンツが含まれていることは自明のため、HaveIbeenTrainedは最初からLAIONのNSFW分類器を使い、キャプション検索結果に「Not Safe for Work」(NSFW)コンテンツが表示されないようにブロックしていました。404が多いのはそのためです。

 

12月David Thiel率いるスタンフォード大学インターネット観測所のグループは、LAION-5Bで発見されたCSAM(児童性的虐待素材)の場所を特定し、削除する方法を明らかにした論文を発表しました。この論文を受けてSpawningもHaveIbeenTrainedを停止し、スタンフォード大学のチームが特定した画像にアクセスできないようにしました。CSAMは削除し、12月19日にLAION-5Bも公開を停止しましたが、未確認の素材が残っている可能性があり、C3PやPhotoDNAと協力して、テキストと画像のデータセットを大規模にレビューする方法の開発に取り組んでいます。

画像検索と重複検出機能は、クリエイターがオンラインで自分の作品の複製を見つけやすくするために導入しましたが、CSAM目当ての不正利用を避けるためデータセットのレビューが終了するまでこれらの機能を削除し、CSAMを検索しにくくしました。

それらの対策を講じた上で、2024年2月にHaveIbeenTrainedを再開しました。

 

2月23日、Stable Diffusion3のリリースが発表されました。Stable Diffusion3Stable Cascadeは、SpawningDo Not Trainレジストリオプトアウトされた画像をトレーニングデータセットから削除しています。約束されたオプトアウトが実現しました。

それについてはひとまず評価したいと思います(有害コンテンツが完全に削除されたとはいえない状態ですが)。

 

それが性能にどう影響しているのかは、直接使用していないため詳述できません。しかし使用者のレビューを見る限りでは、文字と画質、速度の評価が高く、肯定的に受け入れられているように見えます。一方人体が崩壊しやすい、NSFWコンテンツを意図的にコントロールしようとした失敗作という批判もあります。

それは Spawningと協力してオプトアウト要請を尊重し、NSFWコンテンツの削除も進めている影響だと思います。

 

ライセンスは研究・非商用利用と商用利用に分かれ、利用規定に反する児童の性的搾取、非同意性的画像や違法なポルノコンテンツ、また政治広告、宣伝、または影響力のあるキャンペーンの作成も規定違反、商用利用できません。また利用は18歳以上に制限され、未成年は保護者の同意を必要とします。

 

ポルノコンテンツの商用利用ができないのは良いことだと思います。

収益目当てにポルノを製作販売する利用者が多いからです。

悪用されている旧ヴァージョンについても対策を望みます。

 

追記

9月1日CSAMを除去したre-LAION-5Bがリリースされました。

https://xenospectrum.com/laion-releases-new-dataset-re-laion-5b-with-enhanced-measures-for-child-abuse-images/