〒100-6114
東京都千代田区永田町2丁目11番1号
山王パークタワー12階(お客さま受付)・14階
東京メトロ 銀座線:溜池山王駅 7番出口(地下直結)
東京メトロ 南北線:溜池山王駅 7番出口(地下直結)
東京メトロ 千代田線:国会議事堂前駅 5番出口 徒歩3分
東京メトロ 丸の内線:国会議事堂前駅 5番出口
徒歩10分(千代田線ホーム経由)
セミナー
事務所概要・アクセス
事務所概要・アクセス
ChatGPTをはじめとするAIを利用する際に、入力しようとするデータに個人情報が含まれる場合、どのような対応が必要になるでしょうか。2022年4月1日に施行された令和2年改正個人情報保護法で登場した「仮名加工情報」を利用することを含め、具体的な事例を挙げて検討します。
なお、AIのサービスを提供しているベンダとの関係、例えば、個人データの提供の際の同意取得、委託先の監督、安全管理措置、外国にある第三者への提供規制なども検討する必要がありますが、これらの点は、特集記事「ChatGPTの利用について法務が検討すべき3つのポイント」をご参照ください。
ChatGPTの特徴は、単一のタスクのために設計・開発されたモデルではなく、文書の要約、会話、創作、プログラムのコードの生成など、様々なタスクに使用できる汎用的なモデルになっている点にあります。ユーザは、「プロンプト(prompt)」と呼ばれる入力(=チャットにおける「質問」)により、AIに指示をしたり、例を提供したりして、ChatGPTを利用することになります。
例えば、「軽井沢で、ペットと一緒に食事をできるイタリアンのランチがおいしい店を3つあげてください。」とプロンプトに入力すればレストランを3件回答しますし、「Outlookで、受信したメールのメールアドレスを抽出し、ドメインごとに、指定されたフォルダにメールを移動するプログラムを、VBAで作ってください。ドメインとフォルダは、CSVファイルから読み込むようにします。」と入力すれば、プログラムのコードを自動的に生成します。
また、OpenAI社では、ChatGPT以外にも、API(※)経由で様々な機能を提供しています(リンク)。
※ APIとは、Application Programing Interfaceの略であり、プログラムから機能を呼び出すための仕組みを意味します。
例えば、Embeddingsを利用すれば、文章を数値化(ベクトル化)し、似た文書を検索することなどができるようになります。また、GPT-3をはじめとするモデルは、利用者がOpenAI社の提供するモデルそのものに対する追加学習(fine-tuning)を行うことができるようになっています。
前述したレストランの検索やプログラムコードの作成のように、プロンプト及び回答に個人情報が含まれていないケースでは、個人情報保護法の問題は生じません。本稿では、プロンプト又は回答に個人情報が含まれるケースについて検討します(なお、プロンプトに秘密情報が含まれる場合や著作権との関係については、「ChatGPTの利用について法務が検討すべき3つのポイント」をご参照ください。)。
まず、もっとも単純な例から考えます。プロンプトに個人情報を入力し、個人情報としての出力を得る場合です。
例えば、以下のプロンプトをChatGPT(モデル:GPT-4)に入力したとします(ChatGPTのサイトはこちらにありますので、可能な方は、是非以下をコピーして入力してみていただければと存じます。)。
影島広泰という従業員が、人事面接で以下のやりとりをしました。
従業員:今年度、私はプロジェクトXで大きな成果を上げましたが、正直なところ、私のスキルや経験をもっと活かせるチャンスを求めています。
人事部担当者:それは興味深いですね。当社内での異動や新たなプロジェクトへの参加に興味はありますか?
従業員:ありがとうございます。異動や新プロジェクトには興味がありますが、より大きなチャレンジや別の業界での経験を積みたいとも考えています。
この従業員が退職したいと考える可能性は高いと評価できますか?
すると、以下のような回答が返ってきます(なお、ChatGPTでは、回答は毎回変わるようにプログラムされています。APIを利用すれば、回答の「温度感」等のパラメータにより、回答のばらつき度合いをコントロールできます。)。
はい、この従業員が退職を検討している可能性は高いと評価できます。彼がプロジェクトXでの成果に満足していないこと、そしてスキルや経験をもっと活かせるチャンスを求めていることが示唆されています。さらに、異動や新プロジェクトに関心があるものの、より大きなチャレンジや別の業界での経験を求めていることから、彼が現在の職場に対して不満を持っている可能性があります。そのため、退職を検討している可能性は高いと言えるでしょう。
これは、影島広泰という人物の人事面接でのやりとりという個人情報を入力して、同人の退職可能性についての分析結果という個人情報を出力していますので、個人情報の利用に当たります。個人情報保護法上は、このような利用が利用目的として特定され(個人情報保護法17条1項)、本人に通知等されているか(21条1項)などが問題となります。
プロンプトにおいては、単にタスクを記載するだけではなく、タスクのサンプルを与えることもできます(few-shotプロンプトと呼ばれます。)。これにより、回答の精度が上がります(※)。
※ これに対し、上記2のように単に質問(タスク)だけを与えて回答させるプロンプトは、「Zero-shot」のプロンプトと呼ばれます。
例えば、ECサイトにおいて、顧客が商品のページを閲覧していた時間と購入に至ったか否か等を記録した以下のデータがあったとします(「顧客ID」により容易照合性(2条1項1号)が認められるため、各データが個人情報に当たるという前提です。)。
以上のデータをプロンプトとして入力し、以下のデータに基づいて顧客ID:1003が購入する可能性が高いか低いか予想したとします。これにより、例えば、顧客ID:1003に商品ID107の広告を表示させる価値があるかどうかを判断することができます(もし購入する可能性が高いのであれば、この後、顧客ID:1003が他社のニュースサイトなどを閲覧しているときに、商品ID:107の広告を表示させること(リターゲティング広告)が有効であるといえます。)。
このような分析と個人情報保護法の関係はどのように考えるべきでしょうか。
まず、プロンプトとして、以下をChatGPT(モデル:GPT-4)に入力します。
以下のデータに基づいて、最後の項目が「Y」か「N」かを推測してください。ステップバイステップで考えよう。
顧客ID,商品ID,閲覧開始時刻,閲覧時間,購入
1001,101,2023-05-07T12:34:56,20,Y
1001,102,2023-05-07T10:15:30,48,N
1002,103,2023-05-07T14:00:12,68,N
1003,101,2023-05-07T21:30:18,57,N
1001,101,2023-05-07T08:25:47,18,Y
1002,104,2023-05-07T19:45:00,25,Y
1002,105,2023-05-07T20:50:32,18,Y
1003,106,2023-05-07T22:20:45,29,Y
1003,102,2023-05-07T23:15:30,101,N
1003,107,2023-05-08T16:45:20,17,
これに対して、GPT-4は、以下の回答を出力してきます。
この場合、最後の項目「購入」を予測するために、顧客ID、商品ID、閲覧開始時刻、閲覧時間を使ってパターンを探すことができます。以下のステップバイステップの分析を参考にしてください。
1. 顧客ごとの購入傾向を確認する。
顧客ID 1001: 購入率 2/3 (Y:2, N:1)
顧客ID 1002: 購入率 2/3 (Y:2, N:1)
顧客ID 1003: 購入率 1/4 (Y:1, N:3)
2. 閲覧時間と購入の関係を確認する。
閲覧時間が30秒未満の場合、購入率が高い傾向にある(Y:4, N:1)。
閲覧時間が30秒以上の場合、購入率が低い傾向にある(Y:1, N:4)。
3. 商品IDと購入の関係を確認する。
商品IDによる購入の傾向は明確でないため、この情報は予測にはあまり役立ちません。
これらの分析結果に基づいて、最後のデータの購入結果を予測してみます。
顧客ID,商品ID,閲覧開始時刻,閲覧時間,購入
1003,107,2023-05-08T16:45:20,17,
このデータは、顧客ID 1003(購入率が低い)が商品ID 107を閲覧しています。閲覧時間は17秒で、閲覧時間が30秒未満の場合の購入率が高い傾向があります。この情報に基づいて、顧客ID 1003は商品ID 107を購入する可能性が高いと予測できます。
したがって、最後の項目の予測は「Y」となります。
この場合、上記2の事例と同様に、インプットされているデータBは個人情報であり、出力されているのも「顧客ID:1003」という顧客の購入可能性という個人情報ですので、個人情報の利用に当たることになります。
したがって、上記2と同様、利用目的の特定と通知等が必要となります。このようなマーケティング目的での利用が特定されていない場合であって、かつそのような利用目的への変更が変更前の利用目的と「関連性」(17条2項)があるとはいえない場合、このような利用はできないことになります。 通則ガイドラインにおいて、情報分析をするようなケースでは、利用目的をより詳細に特定する必要があるとされていますので、留意が必要です(通則ガイドライン3-1-1)。
本人が、自らの個人情報がどのように取り扱われることとなるか、利用目的から合理的に予測・想定できないような場合は、この趣旨に沿ってできる限り利用目的を特定したことにはならない。
例えば、本人から得た情報から、本人に関する行動・関心等の情報を分析する場合、個人情報取扱事業者は、どのような取扱いが行われているかを本人が予測・想定できる程度に利用目的を特定しなければならない。
【本人から得た情報から、行動・関心等の情報を分析する場合に具体的に利用目的を特定している事例】
事例1)「取得した閲覧履歴や購買履歴等の情報を分析して、趣味・嗜好に応じた新商品・サービスに関する広告のために利用いたします。」
事例2)「取得した行動履歴等の情報を分析し、信用スコアを算出した上で、当該スコアを第三者へ提供いたします。」
なお、few-shotとして入力したデータAは、モデルに例を示すために使用したに過ぎませんが、上記回答において「顧客ID 1003: 購入率 1/4 (Y:1, N:3)」という分析が行われていることから分かるとおり、データBの予測をする際に個々のデータとして利用されていますので、統計的な処理だけを行っているとはいえないと考えられます。
また、データAの4番目、8番目及び9番目の「顧客ID:1003」の各データは、データBの個人情報と照合して「顧客ID:1003」の購入可能性という分析を行っていますので、識別行為を行っていることになり、データAを仮名加工情報と捉えることもできません(41条7項)。
以上のとおり、個人情報をプロンプトに入力する際には、実務上、利用目的の制限が大きな問題となります。
そこで、プロンプトを一捻りして、仮名加工情報という形でデータを利用することを検討します。
例えば、データBを、以下のようにします(顧客ID:1003を削除し、few-shotのデータと照合できないようにします。データAの顧客IDを別の符号に置き換えても同じことです。)。
すなわち、プロンプトは以下のとおりとなります。
以下のデータに基づいて、最後の項目が「Y」か「N」かを推測してください。ステップバイステップで考えよう。
顧客ID,商品ID,閲覧開始時刻,閲覧時間,購入
1001,101,2023-05-07T12:34:56,20,Y
1001,102,2023-05-07T10:15:30,48,N
1002,103,2023-05-07T14:00:12,68,N
1003,101,2023-05-07T21:30:18,57,N
1001,101,2023-05-07T08:25:47,18,Y
1002,104,2023-05-07T19:45:00,25,Y
1002,105,2023-05-07T20:50:32,18,Y
1003,106,2023-05-07T22:20:45,29,Y
1003,102,2023-05-07T23:15:30,101,N
XXXX,107,2023-05-08T16:45:20,17,
これに対するGPT-4の回答は、以下のとおりです。
顧客IDが不明なため、閲覧時間を主な基準として購入の予測を行います。以下のステップバイステップの分析を参考にしてください。
閲覧時間と購入の関係を確認する。
閲覧時間が30秒未満の場合、購入率が高い傾向にある(Y:4, N:0)。
閲覧時間が30秒以上の場合、購入率が低い傾向にある(Y:1, N:4)。
商品IDと購入の関係を確認する。
商品IDによる購入の傾向は明確でないため、この情報は予測にはあまり役立ちません。
これらの分析結果に基づいて、最後のデータの購入結果を予測してみます。
顧客ID,商品ID,閲覧開始時刻,閲覧時間,購入
XXXX,107,2023-05-08T16:45:20,17,
このデータは、顧客IDが不明で商品ID 107を閲覧しています。閲覧時間は17秒で、閲覧時間が30秒未満の場合の購入率が高い傾向があります。この情報に基づいて、不明な顧客IDは商品ID 107を購入する可能性が高いと予測できます。
したがって、最後の項目の予測は「Y」となります。
この場合、事業者としては、XXXXは顧客ID:1003ということを把握し、データ分析の結果をもとに顧客ID:1003に広告配信を行うために、顧客ID:1003の購入可能性が「Y」であるという分析を行っておりますので、データBについては個人情報の利用に当たります。したがって、データを分析して広告配信等の目的で利用することについて利用目的の特定が必要となります。
しかしながら、データAについては、データBとは異なり、仮名加工情報と捉えることで、変更前の利用目的と「関連性」がない場合であっても利用可能となると考えられます。
データAを仮名加工情報とするには、仮名加工情報として取り扱うためにデータAを作成する必要があります(ガイドライン仮名加工情報・匿名加工情報編2-2-2-1(※2))。データAは、個人情報保護法施行規則31条各号が定める基準を満たしていると考えられますので、データAを個人情報と照合したり、データA自体を本人への広告配信等のために用いたりしないことなどをすれば仮名加工情報となります。
施行規則第31条
法第41条第1項の個人情報保護委員会規則で定める基準は、次のとおりとする。
一 個人情報に含まれる特定の個人を識別することができる記述等の全部又は一部を削除すること(当該全部又は一部の記述等を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む。)。
二 個人情報に含まれる個人識別符号の全部を削除すること(当該個人識別符号を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む。)。
三 個人情報に含まれる不正に利用されることにより財産的被害が生じるおそれがある記述等を削除すること(当該記述等を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む。)。
そして、今回のプロンプトでは、前記3のケースと異なり、データA(仮名加工情報)とデータB(個人情報)を照合していません。したがって、仮名加工情報の取扱いの規制に違反していないと考えられます。
実務的には、データAの利用目的が狭く特定されてしまっていたり、取得時の利用目的が分からなくなってしまっているケースが想定されますが、仮名加工情報に加工して利用することにより、その制限を受けないことになるのです(※)。
※ そもそも、単に特定の顧客IDに着目しない方法による購入予測を行うために、モデルに対して例を与えているに過ぎないことから、個人情報の「利用」に当たらないのではないかとの論点も考えられるところですが、本稿ではそこには踏み込みません。
ベクトル化とは、文章を数値化し、似た文章を検索することなどができるようにする処理を意味します。
例えば、「スポーツシューズ」という単語について、他の大量のテキストデータから「スポーツシューズ」の意味を捉え、周囲の単語との関係性に基づいて数値化するのがembeddingです。「スポーツシューズ」を3つの数字で数値化するモデルでembeddingすると、例えば[0.2, 0.5, -0.1]という数値の組み合わせに変換されます(「3次元のベクトル化」と呼びます。)。また、同様に、「ランニングシューズ」と「スマートフォン」もembeddingします。
商品A: スポーツシューズ (ベクトル化後: [0.2, 0.5, -0.1])
商品B: ランニングシューズ (ベクトル化後: [0.3, 0.6, -0.2])
商品C: スマートフォン (ベクトル化後: [-0.4, 0.1, 0.8])
すると、これらの単語を、そのモデル内で類似検索できるようになります。
コサイン類似度(商品A, 商品B) = 0.98
コサイン類似度(商品A, 商品C) = -0.15
これによると、商品Aのスポーツシューズと商品Bのランニングシューズの関係性が近いことが分かります。これにより、例えば、顧客が商品Aのページを閲覧している際に、類似度が高い順に商品を並べ、商品Bをレコメンドすることができるようになります。
では、個人情報をembeddingした場合にはどうなるでしょうか。
例えば、以下のような人事面接のやりとりの記録があったとします。
1. 影島広泰:
従業員:この年度、私はプロジェクトXにおいてリーダーとしてチームを率い、期限内に成果物を納品することができました。また、クライアントからのフィードバックも非常に良かったです。
人事部担当者:素晴らしい成果ですね。今後のキャリアについて、当社でどのような展望をお持ちですか?
従業員:今後も引き続き、スキルを磨いていきたいと考えており、新たなプロジェクトやチームでチャレンジしていきたいと思っています。
【現状:1年以内に退職】
2. 甲野太郎:
従業員:今年は部門間のコミュニケーションをスムーズにするため、新しいコラボレーションツールの導入を提案し、実際に効果があったと思います。
人事部担当者:その取り組みによる効果について具体的に教えていただけますか?
従業員:はい、実際に部門間のミーティングの回数が減り、情報共有が迅速になったことで、プロジェクトの進捗が向上しました。
【現状:当社に在職中】
3. 乙山次郎:
従業員:今年度は、新人研修のカリキュラム改善に取り組み、新入社員の早期戦力化に成功しました。
人事部担当者:それは素晴らしいですね。今後の目標について教えてください。
従業員:今後は、この改善をさらに磨き、新入社員が自分たちのポテンシャルを最大限に発揮できる環境を整えることに取り組みたいと考えています。
【現状:当社に在職中】
それぞれの最後の発言をOpenAI社のAPIを利用してtext-embedding-ada-002モデルでembeddingしてみます。このモデルは、文章を1536次元でベクトル化するものです。これは、これまでにOpenAI社が膨大なインターネット上の情報で学習させてきた言語空間の中に、入力した文章がどのように位置づけられるかを数値化したものということになります。
※実際には、このような数字が1536個出力されます。
このようなベクトル化した情報をデータとして保存しておきます(データC)。
その後、以下のような人事面接でのやりとりがあったとします。
丙山春子:
従業員:今年度、私はプロジェクトXで大きな成果を上げましたが、正直なところ、私のスキルや経験をもっと活かせるチャンスを求めています。
人事部担当者:それは興味深いですね。当社内での異動や新たなプロジェクトへの参加に興味はありますか?
従業員:ありがとうございます。異動や新プロジェクトには興味がありますが、より大きなチャレンジや別の業界での経験を積みたいとも考えています。
この最後の発言も同様にベクトル化します(データD)。
そうすれば、データCの中から、OpenAI社が学習した膨大なデータが作る言語空間の中で、データDに最も文脈が近いものを検索することができるようになります。
例えば、データCの「1」がデータDに最も近いということになれば(※)、似たような過去のやりとりである「1」を参考にして、丙山春子に対する人事施策を検討することができるかもしれません。
※なお、実際にMeta(Facebook)社のFaissというベクトル検索ライブラリを利用してデータCとデータDの近傍検索を行ったところ、データDはデータCの中で「1」に最も近いという結論が出てきました。
以上のようなデータをベクトル化して類似検索の対象とするするようなケースでも、「1」が影島広泰という従業員であることを再識別しなければ、データCを仮名加工情報として取り扱うことが可能であると考えられます。
データCは、前述した施行規則31条各号を満たしていると考えられますし、「1」が影島広泰という従業員であることを識別するために照合などしておらず、単に似たようなやりとりとして表示させているだけであるからです。ただし、データCを仮名加工情報として利用する場合、データCの「1」がデータDに最も近いことが分かった後で、丙山春子に対する人事施策を検討するために、データCに含まれていない「1」影島広泰の人事記録を参照することは、識別行為に当たります。したがって、丙山春子の人事施策のために必要になるであろう情報は、あらかじめ仮名加工情報に含めておく必要があります(その趣旨で、データCには、面接後に退職したか在職中かの現状についての情報を含めてあります。これにより、丙山春子と似たような回答をした「1」の従業員が1年以内に退職したことが分かり、それを踏まえて丙山春子に対する人事施策を講ずることができます。)。
なお、もちろん、データDは丙山春子の個人情報としての利用には当たります。
最後に、個人情報を追加学習の学習用データとして利用するケースを考えます。
モデルに対する追加学習(fine-tuning)を行う場合、出力されるものは学習済みモデルであり、統計的なものに過ぎません。
個人情報保護法が規制の対象にしているのは「個人に関する情報」です。
【個人情報保護法2条1項(個人情報)】
この法律において「個人情報」とは、生存する個人に関する情報であって、次の各号のいずれかに該当するものをいう。
一 当該情報に含まれる氏名、生年月日その他の記述等(文書、図画若しくは電磁的記録(電磁的方式(電子的方式、磁気的方式その他人の知覚によっては認識することができない方式をいう。次項第二号において同じ。)で作られる記録をいう。以下同じ。)に記載され、若しくは記録され、又は音声、動作その他の方法を用いて表された一切の事項(個人識別符号を除く。)をいう。以下同じ。)により特定の個人を識別することができるもの(他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む。)
二 個人識別符号が含まれるもの
【同条5項(仮名加工情報)】
この法律において「仮名加工情報」とは、次の各号に掲げる個人情報の区分に応じて当該各号に定める措置を講じて他の情報と照合しない限り特定の個人を識別することができないように個人情報を加工して得られる個人に関する情報をいう。[以下略]
【同条6項(匿名加工情報)】
この法律において「匿名加工情報」とは、次の各号に掲げる個人情報の区分に応じて当該各号に定める措置を講じて特定の個人を識別することができないように個人情報を加工して得られる個人に関する情報であって、当該個人情報を復元することができないようにしたものをいう。[以下略]
【同条7項(個人関連情報)】
この法律において「個人関連情報」とは、生存する個人に関する情報であって、個人情報、仮名加工情報及び匿名加工情報のいずれにも該当しないものをいう。
したがって、特定の個人との対応関係が排斥されている情報は、「個人に関する情報」ではないため、個人情報保護法の適用がないことになります(通則ガイドライン2-8)。典型的には、統計情報(複数人の情報から共通要素に係る項目を抽出して同じ分類ごとに集計等して得られる情報(個人情報保護員会Q&A「Q1-7」))は、個人情報保護法の適用がありません。また、複数人の個人情報を機械学習の学習用データセットとして用いて生成した学習済みパラメータ(重み係数)は、当該パラメータと特定の個人との対応関係が排斥されている限りにおいては「個人に関する情報」に該当するものではないとされています(同Q&A「Q1-8」)。
さらに、「統計データへの加工を行うこと自体を利用目的とする必要はありません。」ともされています(同Q&A「Q2-5」)。
したがって、追加学習に個人情報を利用することは、個人情報の利用にはあたらず、利用目的として特定する必要がなく、また、出力された学習済みモデルについても個人情報保護法の適用はないことになります。
以上のとおり、ChatGPTをはじめとするAIにおいて個人情報を利用する際には、個人情報の利用に当たるかをケースごとに検討していく必要があります。その際、仮名加工情報という制度を利用することは、積極的に検討する価値があるように思われます。