2年近く生成AIを問題にしているため「反AI」扱いされますが、問題にしているのは生成AIであり、全てのAIではありません。
特に画像生成AIは私自身の絵がデータセットに入っていたため、当事者としてデータを提供する側からの考えを書いています。
誤解のないようにお願いいたします。
私自身も昨年夏までは生成AIがどういうものか知るため試作していました。そのため一部の人に拒否されブロックされています。理由はともかく使っただけで拒否される気持ちは理解できます。私はデータセットの問題の深さに気づいて使用をやめましたが、今も風景画や抽象画を製作している人はおり、ポルノ製作などに悪用していなくても拒否されることがあります。
その主な理由はデータセットにあると考えます。
CSAM(児童性虐待素材)が含まれることは報道されているため、ご存じの方もいると思います。無修正ポルノや盗撮など違法性のあるデータが含まれており、批判が集中した巨大トレーニングデータセットLAION-5Bは昨年12月に公開を停止しています。Stable DiffusionもMidjourneyもトレーニングに使用しています。利用者が性的な作品を製作せず、直接影響は受けていないとしても、使用するモデルが倫理的な問題のあるデータに依拠して製作されているためクリーンだとはいえません。
https://forbesjapan.com/articles/detail/68355
個人情報、プライバシーの問題のあるデータも含まれています。病院から流出した医療写真が無許可で使われ、将来悪用される可能性が高いと危惧する患者がいます。
https://gigazine.net/news/20220922-medical-photos-popular-ai-training-data-set/
事故や事件の犠牲者の写真もあり、使わないでほしいと訴える遺族もいます。
https://www.yomiuri.co.jp/national/20240407-OYT1T50068/2/
一般人の顔のわかる写真、名前や居場所の特定できる写真もあります。同じ写真が多数転載されている場合もあります。無許諾で学習できるということは、個人情報、プライバシーへの配慮も不要だということです。
個人情報保護委員会が生成AIのデータ学習に個人情報をどこまで本人の同意なく使えるようにすべきかについて、関係省庁を交えて検討が必要だとの中間整理案を公表しています。
https://www.asahi.com/articles/ASS6W31J4S6WULFA01JM.html
倫理的な問題の他に著作権侵害の問題があります。
開発拠点の米国で、アーティストによる集団訴訟が進行中です。最終的な判決はまだ出ていませんが、著作権侵害に関する主張に対して「訴訟を進める根拠がある」と認められています。
https://ledge.ai/articles/midjourney_and_stabilityai_progress_on_copyright_issues
日本は米国とは法律が違いますが、Stable Diffusion、その派生モデル、Midjourney の利用者が多いため影響を受けます。
日本の著作権法では享受目的がなければ権利者の許諾なく学習することが認められるため、学習は合法という利用者がいます。
しかし享受目的があれば著作権侵害になります。
また海賊版の利用については法整備されていませんが、「AIと著作権に関する考え方について(素案)(令和6年2月29日時点版)」では、海賊版と知りながら利用することは認めない考えを示しており、海賊版を学習データの収集対象から除外する取り組みを可能にするなどの対策を求めています。
https://www.bunka.go.jp › seisaku › bunkashingikai › chosakuken › hoseido › r05_07 › pdf › 9401140
LAION-5Bには海賊版が入っています。日本の漫画を無断で使用しているmanga RAWやMangaDexなどの画像が見つかります。イラストの無断転載サイトDanbooruも入っています。
Danbooruは海賊版サイトKemono.Partyを通してpixiv等から抜かれた有料のコンテンツが転載されています。
これを使った画像生成AIを利用すれば、それだけで拒否されても仕方ありません。NovelAIもDanbooruデータセットを使っています。人気キャラクターを生成する人もいますが、自分で描く二次創作とは違い、著作物の二次利用になります。
アニメの海賊版についてはこちらをご参照ください。
https://vdata.nikkei.com/newsgraphics/ai-anime/
水と電力を大量に消費する問題もあります。
https://innovatopia.jp/energy/energy-news/38233/
データセット製作に欠かせないアノテーターが低賃金で過酷な労働を強いられている問題もあります。
https://courrier.jp/news/archives/194519/
https://ascii.jp/elem/000/004/141/4141404/
https://arvo.net/ai/ai-news-special-report/4921/
仮にクリーンなモデルが完成したとしても、この問題を解決しなければ先に進めません。
追記
9月1日CSAMを除去したre-LAION-5Bがリリースされました。
https://xenospectrum.com/laion-releases-new-dataset-re-laion-5b-with-enhanced-measures-for-child-abuse-images/
しかし著作権やプライバシー、個人情報の問題のあるデータは残っています。