AI研究の未来は暗くない?

ChatGPT等のAI翻訳の本質を、「予測変換」と喝破しておられるツイートを目にして思ったんです。

GPT-4などの新型モデルは『学習データ非公開』( GPT-4解説:その性能、応用事例、安全対策、そしてリスク評価を眺望 )である点はやっぱり気になるなあって。
既存のGPT-2検証で、論文や知財資料などを無許可でぶんどったことが明らかになっている。( 言語生成AIは文章を“盗作”しているのか? 21万件の文章から米国の研究者らが分析 3種類の剽窃を全て行っていることが判明。つまり”他人の考えを厳密に引用し、自分の考えをきちんと分けて表現する”ということをしていないという話。論文アシスタントにこんなもん使ったら、研究者生命が終わるわ)

既存モデルですら「どんなリスクがあるか分からん代物と化している」のに、新型を「学習データは非公開」をされてるからもっと怖いのは当然。その恐怖や反発を和らげるべく、Adobe社などは『喰わせた学習データは公開許諾されたもの』保証を付けた画像生成AIを提供し始めた。( アドビが新たな画像生成AI「Adobe Firefly」を発表、プライベートベータ版を公開 )

現状でさえ精度は疑わしいのに、今後のAI研究の展望は暗い。なぜなら……

今後の学習データは、さらに精度が低下する。

AI生成された『文章』、皆がお遊びで書かせた『誰それについての経歴』、『身体構成や背景のおかしな一見綺麗め』イラストが多数放流されている。
学習対象のインターネットは、2022年以降AIデータに汚染され、精度がさらに低下した。

ツイッターのハッシュタグには、AIで作りました!って書いてるものもある。 けど、そうじゃない(意図的に書かないヤツもいる)AI作成データも多数放流されている。
それを『学習データ』として喰ったら、ねぇ。
何が出力されるやら、ですよ。

実を申しますと、人間側の堕落以上に、このデータ汚染が問題になるでしょう。 「今後の学習データの質をいかにして担保するのか」 が、深層学習デザインに付きまとうことになるだろうな、という予想をしています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください