· 

小学生が使える安全でクリーンなAIはありません

生成AIは国が推奨しているので問題ない、各企業が絵師に対価を支払って学習させていると思っていた、という投稿をSNSで見ました。

 

 実は私もそうでした。去年の初めは問題があることを知らず「AIの考えた○○」に笑っていいねを押していましたし、スマホのイラスト生成アプリはイラストレーターに対価を支払っていると思っていました。まさか無償で使うとは思ってもいませんでした。

 

人間の写真に見えるイラストも、モデルやカメラマンに対価を支払っている最初からそういう契約なのだと思っていました。

無償でジブリアニメや「ヴァイオレット・エヴァーガーデン」を使い、一般人の写真まで使っているとは思いませんでした。

 

なぜそうなったか、Firefoxを開発したMozillaのレポートを読んで整理してみました。

https://foundation.mozilla.org/en/blog/Mozilla-Report-How-Common-Crawl-Data-Infrastructure-Shaped-the-Battle-Royale-over-Generative-AI/

 

米国の非営利団体Common Crawlが無料で利用できる最大のWebクロールデータソースとして生成AI開発に重要な役割を果たしています。WEBから集めた9.5ペタバイトを超える膨大なデータセットを公開しており、OpenAIのChatGPTの多くの部分をCommon Crawlのデータが支えていました。

 

他の多くのLLM(大規模言語モデル)もCommon Crawlを使用しています。

 

それが多くのモデルが偏った有害なデータや著作権で保護された資料でトレーニングされることにつながりました。画像生成AIStable Doffusionが使用したトレーニングデータセットLAION-5BもCommon Crawlを使用して製作されています。

https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/

 

有害なコンテンツを完全に排除することは困難で、LAIONは商用ではなく研究目的の使用を奨めています。しかしそれがすぐに商用利用されてしまったことで問題が起きています。国産といわれる画像生成AIの多くはLAION-5BでトレーニングしたStable Diffusionがベースです。クリーンとはいえません。

https://laion.ai/blog/laion-5b/

 

Midjouneyは情報非公開ですが、トレーニングデータセットにLAION-400M 、LAION-5Bを使用していることがわかる訴訟資料が出ています。

https://sizu.me/penpengin/posts/dv4bix412z2i

 

WEBからデータを集めたトレーニングデータセットは有害コンテンツ、著作権で保護されたコンテンツを含みます。

 

それを使用している生成AIは全て共通の問題を抱えています。

 

Stable Diffusionはオープンソースで公開されているためNSFWコンテンツの製作に利用され、ポルノ生成アプリが多数作られたため批判を浴びました。またLAION-5Bは検索で中身が見られるようにされたため批判が集中しました。

 

しかし他のモデルも同じ問題を抱えています。フィルターで生成を制限し、規約違反者を処罰する等の対策が厳しいところは悪用が目立たないだけです。

 

それでも著作権で保護されたコンテンツや人物の肖像が再現される問題があります。

 

DALL-Eがディズニーのロゴを生成してしまう問題でディズニーがマイクロソフトに対策を要請していますが解決していません。マリオやピカチュウは無数の模造品が生成されています。

 

ディープフェイクポルノの濫造では、米国で被害者が損害賠償を請求できる連邦法が上院で全会一致で可決されるに至りました。下院での可決も確実です。規制する州法のなかった地域の被害者に救済の道が開かれました。

https://innovatopia.jp/tech-social/tech-social-news/40301/

 

Common Crawlのようなウエブから取得したデータセットを使わず、自社ライブラリの投稿作品を学習に使ったAdobeのFireflyはクリーンな生成AIとして期待されました。しかしFireflyのトレーニングにライバル社のMidjourney等で生成された画像が使われていることがわかりました。Adobeも同じ問題を抱えています。

https://nikkeimatome.com/?p=27087

 

またAdobeStockの投稿に無断転載があることは以前から問題にされています。

https://www.zakilabo.jp/other/1518/Adobe

 

どれも人権、著作権の問題があり、クリーンだ、安全だと子供に奨められるモデルは今のところありません。

規約で13歳未満の使用を認めていない生成AIを子供に使わせるのは危険です。

https://openai.com/policies/terms-of-use/

https://docs.midjourney.com/docs/terms-of-service

 

Stability.ai(Stable Diffusion)は成人向けに作成された技術なので利用は18歳以上に限定、もしくは保護者の同意を必須としています。学校等で使わせる場合全ての保護者に危険性を開示した上で同意を得る必要があります。

https://stability.ai/use-policy

 

名前やタイトルを書くだけで人気漫画やアニメのキャラクターも作れるため著作権侵害リスクがありますし、Stable DiffusionでもMidjourneyでも下着の女性を生成できます。使用の進んでいる海外では生成AIで作成したディープフェイクヌードを使った恐喝(セクストーション)の被害も出ており、セクストーションの被害者には自殺した児童もいます。同様のフェイクポルノを作れるアプリは日本にもあります。悪用された場合保護者の責任が問われます。

 

私は技術開発に反対しているわけではありません。

外国製に依存しないクリーンな国産モデル開発への取り組みは応援しています。

産総研+アマナイメージズ

https://prtimes.jp/main/html/rd/p/000000001.000146304.html

絵藍ミツア

https://elanmitsua.notion.site/Mitsua-Likes-2023-11-27-d06dba96b22942149934886c3c9be474