AIによるビッグデータ分析の、注意すべき落とし穴

ここ数年、ビッグデータ分析という言葉がさかんに使われている。その言葉の通り、大量のデータを分析し、現状を理解したり、将来を予測したり、最適な行動を導き出したりと、その利用範囲は極めて多様だ。特に近年のAI、なかでもマシンラーニングとその進化したディープ・ラーニングの発展により、高度なビッグデータ分析が容易になったのも、この分野が発展してきている大きな要因だ。

例えば、ヘルスケア分野では、がん患者の最適療法を助言したり、病名を推測するなどで、AI を使ったビッグデータ分析が、威力を発揮しはじめている。金融分野では、最適な投資先と投資タイミングをAIが助言することにより、金融トレーダーの数が以前に比べ、かなり減ったと言われる。また、銀行による企業や個人に対するローンの信用審査も、大幅に時間短縮されてきているようだ。そして、いま話題の自動運転車についても、あらゆる運転状況を想定し、車に搭載したセンサーからの情報をもとに自動運転する。AIによるビッグデータ分析は、ここでもキーとなる技術だ。

このように多くの分野で、AIを使ったビッグデータ分析により、これまでできなかったことが、どんどん実現可能になってきている。このような進歩は、人々にとって歓迎すべきことであり、その発展を応援したい。ただ、ここには、注意すべき落とし穴もある。

マシンラーニングやディープ・ラーニング以前のAIは、人の行うこと、考え方、やり方などをソフトウェアで表現し、それをコンピュータに肩代わりしてもらうタイプのものが中心だった。専門性の高い人の能力を継承するという意味で、これも大切なものだ。しかし、これには限界がある。いまや世の中に利用可能なデータは、ほとんど無限と言ってもいいほどたくさんある。それぞれのデータの相関関係を見出し、何が起こっているかを判断することは、専門家でも不可能なことだ。

ゲームの世界でも、コンピューターがチェスや将棋で人間を破ってきたが、囲碁では当分の間、コンピューターが人間を負かすことはないだろうと考えられていた。それは、囲碁で打てる手が、チェスや将棋にくらべ、桁違いに多いからだ。ところがAIが自ら経験し、知識を習得するマシン・ラーニングが発展し、ディープ・ラーニングが可能になると、あっという間にAIが囲碁の名人を破ってしまった。

それは、AIが囲碁のすべてのパターンを計算し、何が最善の手かを判断するのではなく、対局を何万ケースも学び、どのようなパターンが勝ちパターンかを習得し、それをもとに、次の一手をAI自ら考えたからできたことだ。AIが優秀なものになるには、その分野での多くのパターンを学ぶことが大切だ。囲碁という19x19の決まったマスの盤上のゲームでも、そのパターンが多すぎて、ディープ・ラーニングによって、はじめて人間に勝つことができたが、いまAIを使ったビッグデータ分析で人々がチャレンジしようとしている分野では、その状況や打つ手は、囲碁をはるかに超えるケースが考えられる。

車を運転する場合を考えても、毎回運転する度に、われわれは異なる状況に遭遇する。仮に全く同じ道を通って同じところに行くとしても、天気や光線の具合は違うし、路面状況も異なる。まして、そのときのまわりの車や歩行者の状況など、毎日毎回全く異なっている。そのすべてをAIに学習させるのは無理なので、ある限られた範囲のケースを経験させ、それをもとに新しい状況でどうするかを判断させるわけだ。

つまり、マシン・ラーニングやディープ・ラーニングでのAIの能力は、その与えられたデータによって決まる、ということだ。できるだけたくさんのデータをAIに学ばせる、ということももちろん大切だが、できるだけ多くの異なったケースを学ばせる、ということも極めて重要だ。たとえば、道幅の広い、交通量も少ない、人通りもほとんどない米国の地方都市で自動運転を学んだAIを、日本の人通りの多い、混雑した狭い日本の道路状況で使おうとしても、AIは未経験の環境が多く、どうしていいかわからないケースが多くなり、実用に耐えないだろう。

自動運転のケースだけでなく、ヘルスケアでも、同様のことがいえる。現在、多くの症例、研究論文、そして目の前の患者の状況をもとに、最適な治療方法をAIが進言するようなことも始められているが、たとえば欧米人に関するデータばかりで学んだAIを、日本人の患者に対して適応すると、間違った答えを出す可能性は十分ある。

人は、AIが出した答えだから、と言われると、何となく正しいように思う可能性もあるが、どれくらいの量の、どんなデータを学んだAIか、ということがわからないと、そのAIの出す結果が信用できるものかどうか、わからないことになる。この点を、十分注意する必要がある。特にこれからAIが身近なものになり、一般の人々がAIによる健康相談を利用したり、投資相談をするケースも増えてくるだろうが、この点を忘れないようにしたい。

また、無理やり何等かの結果を導きだすために、偏ったデータをAIに学ばせ、「AIによるビッグデータ分析の結果、このような結果になった」という言い方をする人が出てくる可能性も十分ある。さらには、意図的に悪いことをさせるようにAIを教育することも可能だ。そのため、AI利用を何等かの形で規制していく必要がある、という意見もある。

このように、AIによるビッグデータ分析には、大量のデータが欠かせないが、個人に関するデータについては、個人情報保護の観点から、規制の和が広がりつつある。5月25日には、欧州連合(EU)で一般データ保護規則(GDPR:General Data Protection Regulation)が施行され、EUから許可なく個人情報を外部に持ち出して利用することに一定の制限が加えられた。今後、何等かの形で、個人情報に関して、同様の規制が世界に広がっていく可能性は高い。これは、個人情報保護の観点からは、もちろんいいことであるが、ビッグデータ分析によって、新たな世界を切り開いていく、という観点からは、マイナス要因ともなる。

たとえば、サイバー犯罪やテロなどを阻止するために、いまは世界中からのデータが集められ、分析されている。この中には当然EUからのデータもあり、このままいくとGDPR規制に引っ掛かり、利用できないものも出てくる。そうなると、これまでこのようなデータを使って阻止で来ていたサイバー犯罪やテロが防止できない可能性も出てくる。データの大切さと個人情報保護との難しいバランスの問題だ。

今後、AIを使ったビッグデータ分析は、企業それぞれ、また国家、そして個人としても、それをいかに有効なツールとして使うかが大きな鍵となる。ただ、単にAIによるビッグデータ分析結果だからと言って、そのまま信用せず、どんなデータをもとに分析したものかを、吟味しながら使う必要があることを忘れないようにしたい。

  黒田 豊

(2018年7月)

ご感想をお待ちしています。送り先はここ

戻る