AI

AI · 2024/09/09
58億5000万のデータを集めた巨大トレーニングデータセットLAION-5BからCSAM(児童性的虐待素材)が見つかり公開停止となり、違法性のあるデータを機械的に削除したre-LAION-5Bが8月30日公開されました。データの総数は55億に減っています。
AI · 2024/09/02
9月1日CSAMを除去したreーLAION-5Bがリリースされました。昨年検索して問題のある画像が見つかったpornやloli pornで検索しても何も出てきません。CSAMを描いた漫画もイラストも削除されています。CSAM除去に関しては徹底していると思います。 データ数は58億5000万から55億に減っています。
AI · 2024/08/24
2年近く生成AIを問題にしているため「反AI」扱いされますが、問題にしているのは生成AIであり、全てのAIではありません。 特に画像生成AIは私自身の絵がデータセットに入っていたため、当事者としてデータを提供する側からの考えを書いています。 誤解のないようにお願いいたします。 私自身も昨年夏までは生成AIがどういうものか知るため試作していました。そのため一部の人に拒否されブロックされています。理由はともかく使っただけで拒否される気持ちは理解できます。私はデータセットの問題の深さに気づいて使用をやめましたが、今も風景画や抽象画を製作している人はおり、ポルノ製作などに悪用していなくても拒否されることがあります。 その主な理由はデータセットにあると考えます。
AI · 2024/08/18
生成AIは国が推奨しているので問題ない、各企業が絵師に対価を支払って学習させている、と思っていた、という投稿をSNSで見ました。 実は私もそうでした。去年の初めは問題があることを知らず「AIの考えた○○」に笑っていいねを押していましたし、スマホのイラスト生成アプリはイラストレーターに対価を支払っていると思っていました。まさか無償で使うとは思ってもいませんでした。
AI · 2024/06/15
汚染された生成AIデータセット
2022年5月、ドイツの非営利団体LAION(Large-scale Artificial Intelligence Open Network)が58億5000万の画像とテキストのペアを収めたAI用トレーニングデータセットLAION-5Bをリリースしました。これらの画像とテキストはネット上のデータを提供するコモン・クロールのファイルを解析し、類似性の高い画像とテキストのペアを抽出するという手法で収集されており、製作者も中身を正確に把握することはできません(人間の目で確認できる量ではありません)。人間がキュレーションしていないため、ネット上の有害なコンテンツが含まれていることは自明でした。