AIによる無断学習から自作を守る方法

使いたい人はAI使うと良いのですが、『学習されたくない』絵師にこういったツールも必要でしょう。

クリエイターのイラストをAI学習から保護するツールおよび投稿サイト「emamori」ベータ版の公開開始 https://prtimes.jp/main/html/rd/p/000000001.000127618.html

サービスのURL https://emamori.com/

・サイトに絵をアップすると、AI学習を防ぐフィルタを自動でかけてくれる
・ただし現時点ではまだ招待制運用

なのだとか。

画像生成AIプロテクターのツール(無断学習を防ぐために、自作にフィルタをかけてくれる)としては先行のGlazeもお勧めです https://glaze.cs.uchicago.edu

note記事 画像生成AIプロテクター「Glaze」の意義と使い方まとめ

https://note.com/freena_illust/n/n3aa65e414d08


ただ、emamoriで使用されている基幹技術”Mist”は、類似するサービスであるGlazeと比較しても、img2img(※)への防御力がより高いことなどが注目されています。(記事より引用)

だそうです。
あと、Glazeはツールとして自分のPCに導入する際、4GBほど容量を食うのです。それがきついひとには、このemamori、福音となるかと存じます。

ChatGPT製の論文、99%検知可能という記事を読んできた

海外ソース確認中 (DeepLを援用)

ChatGPT-generated scientific papers could be picked up by new AI-detection tool, say researchers

カンザス大学の化学教授であるHeather Desaire氏は、
「(ChatGPTやそのツールであるチャットボットを援用した)論文投稿が増加し、学会誌や論文誌の査読が以前より大変になった」
教授はChatGPTの敵ではありませんが、意図しない影響に目を光らせることは重要だと考えているそうな。

やり方:ヒトが書いた論文64本を分析。
同じテーマでChatGPTが書いた論文128本を分析。

比較する

科学的な文章の著者(人間)を決定するのに役立つ20の特徴を特定。
あと、
・科学者ならではの書き方(一般人がTwitterに書くのとは大違い)
・文章が長めになりがち とかも特定。

見つけた特徴を使って、化学研究でも使ってる、XGBoostと呼ばれる市販の機械学習アルゴリズムを訓練する。

99%くらいは、『科学論文の作者がヒトか、ChatGPTか』を当てることができるようになった。

ただこれをこのまま、一般人の文章には使うの無理だよ。

今回の検知AIが訓練できたのは……
・『科学の論文』というジャンル特徴のある文章だった
・学習させたデータは、『100%ヒトが書いた文章』と『100%ChatGPTが書いた文章』できっちり分かれてた から
だもの。

記事でも指摘されたように、
「ChatGPTに特定の書き方を指示しておけば、100パーセントAIが書いたテキストでも、この検知AIをパスできる」
って話だから。

で、記事の後半だけど。
「AIが書いたり作ったりした作品を検知するのに血道をあげるより、AIをより生産的に援用する方法をさぐるべきじゃ?」
という意見が述べられてる。
そして、今回の論文を発表した『サイエンス』誌の広報で締めてる。

同誌は最近、編集方針を更新し、あらゆるAIツールで生成されたテキストを科学論文に使用できないことを明記した。
科学論文におけるAI生成ツールの “許容される使い方 “がいずれはあるかもしれないが、科学界がどのような使い方を “許容される “と見ているか、ジャーナルはより明確になるのを待っている。
“ChatGPTが作成した投稿論文かどうかを正確に区別できるツールは、正確な検出の実績があれば、我々の厳格な査読プロセスへの有用な追加となる可能性がある “
と彼らは付け加えた。

ですって。そりゃそうですよ。

嘘ついたり、存在しない論文を文献に挙げたりするAIを、100%使おうが50%使おうが、関係ない。 『そんな論文』を乱発されたら、査読するほうは疲弊してしまう。 科学の論文誌が、そのシステム疲労を起こしてしまう危険性が、今のところは高いってこと。

『AI100%使用でも50%援用論文でもなんでもいいから、論文投稿して実績あげたい研究者』

『AI使用の痕跡を検知して、査読コストを低く抑えたい論文誌』
の軍拡競争は、もうしばらく続くと思います。

『論文誌には、きちんと検証された内容の論文が載ってほしい』 という多くのひとの願いが、ここでは一番大事。
ChatGPTが捏造した部分のまぎれこんだ『論文』を多数投稿するのって、それって学術に対するスパム行為じゃないかしら?

本当に使えないAIね

ChatGPTに書かせた過去の判例が嘘まみれと発覚。書類提出の弁護士に制裁の可能性
https://www.techno-edge.net/article/2023/05/29/1354.html

というニュースがある一方、どこぞの大学じゃ学生に使わせるニュースも流れているChatGPT。

毎日新聞で東洋大学が全学生にChatGPTの最新言語モデル使わせる記事に 「人種差別などを助長する回答をしないように相当訓練されていた点も驚き」 というコメントがあり、とてもじゃないがAIに楽観すぎると思ったのです。

単に、

「新技術に対してネガティブに守りに入るな。 リスクを研究しつつも、ポジティブに活用する途を探り給え。 諸君の若き知性には期待している!」

とぶん投げてたら、私も「ほぅ…?」くらいは思ったんですけどね。

何せ私のツイッターTL上でも、

chatGPTに犯罪計画を立案してもらってたけど。スケベが単語規制されてるのに殺人を想起させるワードはスルーなのは妙な話だ。やはり血と暴力は老若男女問わず人類の共通娯楽…。https://twitter.com/abubu_newnanka/status/1663244133492994050?s=20

という話が。

これは、私の厳選TLに流れるくらい、あいつの規制は緩いぜって話ですよ。
東洋大学の研究者は、悪意ある捏造論文の査読するくらいの気概でチェックすべきだったと思います。(訳:仕事してねーのでは?)

そしてヴィクトリア朝時代のレシピ本『ミセス・クロウコムに学ぶ ヴィクトリア朝クッキング 男爵家料理人のレシピ帳』が、除外したという『レタスの砂糖漬け』が本日のお題です。

当時のレタスって、品種改良されまくった現代レタスよりはるかに、エグくて苦くて匂いもすんぎょいもんな気がする。
ChatGPTに、「以下の項目をGoogle検索で調査をしなさい」で三項目に分けて指示したら3つともバラバラに調べた結果だしてきやがりました。 「対象・植物のレタス栽培 期間・英国のヴィクトリア朝時代に該当する期間 ・結球レタスかどうか」 とか言ったのにYouTubeや現代農業の話しだす。

「英国のヴィクトリア朝時代における農業、レタスの栽培について調べなさい。」 と指示しても、似たり寄ったりの具体的情報が無い一般論ばかり列挙。
末尾でようやく、具体的なヴィクトリア朝時代の農業やレタス栽培の詳細な情報を得るためには、専門書や歴史資料を参照することがおすすめです。 とか言うので

「具体的なヴィクトリア朝時代の農業やレタス栽培の詳細な情報を得たいです。パブリック・ドメインで公開されている専門書はありますか?」

と聞いたら3つほど挙げてきました。 本当かよ?という疑念しかない。
いちおう3つとも検索かけてみたら、実在する本でしたし、パブリック・ドメインで公開されている本でした。 試しに、 “Farm Crops” by John Wrightson (1893) だけ目次を読んでみましたが、レタスの話は無かったです(キャベツや小麦や家畜用カブの話ならあった)。

一般公開型ChatGPTで調べがつくようなことは、自分で調べたほうが早い。 という確信が深まりましたね。

「AIの回答してきた書名は本当に存在するのか……?」

からスタートする調査の、何がどう革新的な技術だというのか。

補助的にChatGPTへ、
「何々時代の期間における、農業栽培の指南書を調べなさい。」
くらいは質問して、検索時の書名単語の参考にする。その程度の補助能力はある、といえるでしょう(結局検索かけるのは人間、検証するのも人間)。

プロンプトガイド使って、ChatGPTに反省文を書かせる 

昨日のOpenAI社が公開した「プロンプト・エンジニアリング・ガイド」。基本部分だけ読みましたので、命令のやりかたを試行錯誤する例として次のようなことをしました。

ChatGPTは、『長文で予測変換し、それを自然な言語っぽく書くのが得意』である。
だから「イメージをざっくり言って、一から書かせる」のは苦手なこと。

代わりに、既に書いた文章を示して、「校正して下さい」と指示するなら、まあまあ『月並みな表現で当たり障りなく』書き換えてくれるのでは?

###以下の文章を、会社に提出する反省文として、校正しなさい。###
「朝寝坊して会社に遅刻しました。すみません。目覚まし時計はかけてたんですが、無視して二度寝してしまいました。本当済みませんでした。」

ChatGPT「朝寝坊して会社に遅刻しました。大変申し訳ありません。目覚まし時計は設定していたのですが、無視して二度寝してしまいました。本当に反省しています。今後はこのようなことが起こらないように注意していきます。」

うーん。元文を丁寧に言い換えただけですね。

###先の文章を、次のように変更しなさい。###
・文の順番を入れ替えて、謝罪を一番にもってきます。
・朝寝坊という言葉は使わないようにします。
・部署の同僚および上司に対する、気持ちをこめた謝罪を追加します。

ChatGPT:以下は、提出する反省文の例です。

「この度は、私が遅刻してしまい、大変ご迷惑をおかけしましたこと、心よりお詫び申し上げます。当日は、目覚まし時計を設定していたにもかかわらず、二度寝してしまいました。自分自身の管理不足であり、反省しております。また、私の遅刻により、部署の皆様や上司の皆様にご迷惑をおかけしましたこと、深くお詫び申し上げます。今後は、このようなことがないように、責任を持って行動してまいりますので、ご指導賜りますよう、よろしくお願い申し上げます。」

これなら使えそうだと思います。「二度寝と言う単語を使わず、体調不良に言い換えて表現しなさい」とかならもっと良い。

このやりとりを、マストドンで公開したところ、見ていた方が
「やっぱり欲しいものの型は知っておかないとだな……知識が無いとググれない
に近いものを感じる」
と言っておられて、膝を打ちました。

なお、私の名誉のために追記しておきますが:本件はあくまで事例研究のための例示であり、私の個人的体験ではないことを申し添えておきます。

続きを読む

AI研究の未来は暗くない?

ChatGPT等のAI翻訳の本質を、「予測変換」と喝破しておられるツイートを目にして思ったんです。

GPT-4などの新型モデルは『学習データ非公開』( GPT-4解説:その性能、応用事例、安全対策、そしてリスク評価を眺望 )である点はやっぱり気になるなあって。
既存のGPT-2検証で、論文や知財資料などを無許可でぶんどったことが明らかになっている。( 言語生成AIは文章を“盗作”しているのか? 21万件の文章から米国の研究者らが分析 3種類の剽窃を全て行っていることが判明。つまり”他人の考えを厳密に引用し、自分の考えをきちんと分けて表現する”ということをしていないという話。論文アシスタントにこんなもん使ったら、研究者生命が終わるわ)

既存モデルですら「どんなリスクがあるか分からん代物と化している」のに、新型を「学習データは非公開」をされてるからもっと怖いのは当然。その恐怖や反発を和らげるべく、Adobe社などは『喰わせた学習データは公開許諾されたもの』保証を付けた画像生成AIを提供し始めた。( アドビが新たな画像生成AI「Adobe Firefly」を発表、プライベートベータ版を公開 )

現状でさえ精度は疑わしいのに、今後のAI研究の展望は暗い。なぜなら……

今後の学習データは、さらに精度が低下する。

AI生成された『文章』、皆がお遊びで書かせた『誰それについての経歴』、『身体構成や背景のおかしな一見綺麗め』イラストが多数放流されている。
学習対象のインターネットは、2022年以降AIデータに汚染され、精度がさらに低下した。

ツイッターのハッシュタグには、AIで作りました!って書いてるものもある。 けど、そうじゃない(意図的に書かないヤツもいる)AI作成データも多数放流されている。
それを『学習データ』として喰ったら、ねぇ。
何が出力されるやら、ですよ。

実を申しますと、人間側の堕落以上に、このデータ汚染が問題になるでしょう。 「今後の学習データの質をいかにして担保するのか」 が、深層学習デザインに付きまとうことになるだろうな、という予想をしています。

最新骨相学は嫌な感じに的中する

骨相学、それは19世紀に発生し、20世紀にはすたれた(当たらないんだからニセ科学に堕ちた)技術。

なのですが、顔データを大量に食わせた顔認識DBは、嫌な感じに的中するという記事を拝読しましてな。

『性的嗜好や支持政党が顔認識アルゴリズムでわかる研究が物議を醸す』
https://jp.techcrunch.com/2021/02/28/2021-01-13-facial-recognition-reveals-political-party-in-troubling-new-research/

すでに「ウソだ!こんなのは当たるわけない!」という否定から、「技術が悪用/濫用されないためにはどうしたらいいか?」を議論する段階でしょう。

私の予想する、顔認識アルゴリズムの援用。
人間は便利なほうへほうへと流される。 『最新学習データを用いたAI骨相学(ありがちな名前)』で判明する支持政党や性的志向などを、相手に黙って判断に使うでしょう。
「お互い様だ、相手だって使っている」
といって一歩も譲らないが、デジタル・ディバイドには知らん顔する。 ……じゃないですかね?現時点でみられるデジタル・ディバイド放置からして。

人間の理性や知性を信頼する運用は、 ・顔を撮られない(私は『最新骨相学』に判断されたくないという意思表示) ・撮ろうと持ち掛けない(私は『最新骨相学』で他の人を判断したくないという意思表示) の2つになろうかと思います。(多数の人が絶対に選ばないだろう選択肢)

ただ、この方法は個人間でのみ運用可能。

自販機やコンビニ、駐車場……。 あらゆる場所にある監視カメラを通じたデータ採取に対抗するのは何か? そうなると、『法規制』じゃね? という考えはあり得ます。(あと、予防効果のない、証拠能力だけの防犯カメラは撤去したらいいのにって思いますね)

おまけ解説【予防効果がない】とは
そこにカメラがあっても、「刺し違えてでも何かやる気がある犯罪者」は止まらない、の意。