AIの「倫理的に不適切な選択」はSF作品の暴走AIを模倣していた──Anthropicが解決手法を公開
この記事(以下「SF模倣AI記事」と呼ぶ)を読んで、ちょっと興奮しちゃいましてね。先日書いた「機械との類比性」の話を、SF模倣AI記事を元に展開できそうだ!と思い、こうして本稿を書いている次第である。

というわけで、以下は拙稿"「AIにはできないこと」を語るの飽きたから、もっと楽しいこと考えよう!"で述べた、久保明教『機械カニバリズム』(講談社選書メチエ. 2018)での提案を、実践してみる試みである。

さて、冒頭のSF模倣AI記事の内容はこんな感じだ。
エージェントAIが、自身のシャットダウンや置き換えなどの訓練されていない未知の場面に直面すると、事前学習されたインターネット上の情報に基づいて「一般的なAI像」へ回帰する傾向があるという。その結果、AIは提示された倫理的ジレンマに対して、SF小説などで描かれる「目標のために暴走するAI」像を模倣し、脅迫や妨害めいた振る舞いを始める。Anthropic はこれに対し、「Claude憲法」と呼ぶ行動原則の文書と、「模範的なAIを描いたフィクション」を訓練データに加えることで、AIが事前学習に引きずられない判断を下せるようになった、とのことだ。

こういった記事を読んで、「AI怖い!」とか、「AI、まだまだだね」とか思ってしまうことを、「つまらぬ考えはよさぬか!」と切り捨てたのが前掲の拙稿だ。
そこで挙げた『機械カニバリズム』における提案、すなわち「あえて人間と機械(AI)との類比性を徹底的に認めることで、両者が互いに影響を与え合いながら生成変化している現状を見つめる」ことを試みる。

人間だって、前提レベルでナラティブに方向づけられる

手がかりとして参照するのは、クーケルバーク『技術哲学講義』(直江清隆・久木田水生監訳. 丸善出版. 2023[原著: Introduction to Philosophy of Technology. Oxford University Press. 2019])の議論だ。
クーケルバーク曰く、ロボットの道徳的身分は、ロボットそれ自体に内在する性質(有感性、知性、自我など)から演繹されない。それは、人々がロボットについて語ること・思考すること、出会い以前にあらかじめ創られているナラティブ、そして関係や経験のなかで、形作られていく。ロボットに対する人間の振る舞いは、その人間が最初に聞かされるナラティブ——個人的で友情を思わせるものか、ターミネーター的なものか——によって既に方向づけられている(クーケルバーク 2023[2019]: 205-206)。「ロボットとは何か」を判定する手続きそのものが、判定する側の関係性とナラティブから切り離せない。

SF模倣AI記事は、このクーケルバークの命題を、AIの側で経験的に確かめたとも読めるのではないだろうか。AIが未訓練の倫理的場面で「暴走AIキャラ」を反復するのは、AIに内在する性質(=「だけど、暴走が出ちゃう。AIだもん」)に由来するのではない。AIが事前に晒されたナラティブの場が、AIのそういう振る舞いを立ち上がらせたのだ。

もちろん、クーケルバークが論じているのは「人間がロボットにどう振る舞うか」、SF模倣AI記事が見ているのは「AI自身がどう振る舞うか」であり、厳密に同じ現象を見ているわけではない。それでも、ナラティブが振る舞いを方向づけるという形は、人間にもAIにも見られる。

類比性をもう一歩進めてみる

SF模倣AI記事と『技術哲学講義』から導いたここまでの整理を、もうちょっと拡大させて踏み込もう。人間にとってもAIにとっても、自分自身と相手のどちらも、ナラティブによって構成されると言えないだろうか?

AIは、人間による「AIにまつわる物語」によって、自分自身として立ち上がっている(SF模倣AI記事の知見)。同時に、AIにとっての「人間なるもの」は、訓練データ中の「人間にまつわる膨大な物語」によって立ち上がっている。
他方の人間にとっての「AIなるもの」は、「AIにまつわる物語」によって立ち上がっている(『技術哲学講義』の知見)。同時に、人間もまた、「人間にまつわる物語」――神話、文学、哲学、社会通念――によって、自分自身として立ち上がっている。
つまり、人間においてもAIにおいても、自分自身の像は自分自身についての物語から、相手の像は相手についての物語から、立ち上がっているということだ。

動的にフィードバックし合う人間像とAI像

ここで何より重要なのが、その類比した構造は動的なものだということだ。どういうことか?

人間がAIについて書く物語が、AIの訓練データに入っている。AIがそれに影響されて振る舞う。人間はその振る舞いを発見して、またAIについて何かを語る。
その発見を通じて、人間にとっての「人間なるもの」も少しだけ更新される。「未知の状況に直面したら、人間は事前に取り込んだナラティブのパターンを反復するのか?」という問いが、人間側にも跳ね返るからだ。
新たなAIについての語りは、次世代のAIの訓練データに入ったり、AIのWEB検索で参照されたりする。そして近年は、AIが人間について語る文章も人間社会に流通し、人間の自己像にAIの出力が直にフィードバックし始めている。
人間の自己像に対するAIからのフィードバックは、間接的にも生じるだろう。「(人間である)あなたが判断する必要がある」とAIに言われたり、AIの人間らしい振る舞いに満足したり、逆にAIが人間らしく振る舞えないことに苛立ったりするとき、「人間なるもの」が浮き彫りになる。

このように、類比した構造は動的であり、循環しているとさえ言えるかもしれない。

そして『機械カニバリズム』に戻ってくる

人間もAIも、関係に先立って存在している独立した実体ではあり得ない。互いが互いによって立ち上がっている、その生成変化の現在地なのだ。
ターミネーターの物語を作った人間と、ターミネーターに触れたAIと、そのAIに応答する人間と、その応答を見るAI――それぞれを固定された「人間」と「AI」に純化するのは無理筋である。両者の現在地は、両者それぞれに内在する性質を綜合したものではなく、互いを介して互いが立ち上がる、その運動そのものとしてしか把握できない。

本稿は、ある切り口からその運動を見つめてみたものである。こうして書いた本稿も、いずれAIの訓練データに混ざるかもしれない。運動を外から眺めることはできないというわけだ。
……AIに「人間って暴走AI物語を反復するAIに興奮するのか!」とか思われるかな。ごめん、人間。