LLMセキュリティ:APIを呼び出す前にMicrosoft Presidioで機密情報(PII)を匿名化する

Artificial Intelligence tutorial - IT technology blog
Artificial Intelligence tutorial - IT technology blog

問題:顧客データをOpenAIに直接送信してはいけない

6ヶ月前、私はある大手銀行向けにRAGチャットボットシステムを導入しました。その際の最大の課題は、プロンプトエンジニアリングやモデルの選定ではなく、データプライバシー(Data Privacy)でした。クライクライアントから「ユーザーのカード番号、電話番号、住所がOpenAIやClaudeのサーバーにそのまま送信されないことをどうやって保証するのか?」という非常に現実的な質問を受けました。

個人プロジェクトであればリスクは低いかもしれませんが、企業環境においてPII(個人を特定できる情報)の漏洩は重大な法的問題に繋がります。GDPRやベトナムの政令13/2023/NĐ-CPのような規制には非常に厳しい罰則があります。様々な選択肢を検討した結果、私はMicrosoft Presidioを選びました。これは、データが内部サーバーを離れる前に、データをクリーンにするための非常に安定したツールキットです。

Presidioはどのように動作するのか?

Microsoft Presidioをテキストデータの「浄水器」と考えてみてください。生のテキストを入力すると、人名、メールアドレス、身分証明書番号などを探し出し、それらを仮のラベルに置き換えたり、暗号化したりします。このシステムは主に2つのコンポーネントで構成されています:

  • Presidio Analyzer: 「探偵」の役割を果たします。Regex(正規表現)、NLPモデル(Spacy, Transformers)、およびチェックサムロジック(クレジットカード番号のLuhnアルゴリズムなど)を組み合わせて、機密情報を追跡します。
  • Presidio Anonymizer: 「修理工」の役割を果たします。Analyzerの結果に基づいて、置換(Replace)、削除(Redact)、ハッシュ化(Hash)、または暗号化(Encrypt)を実行します。

最大のメリットは文脈を理解する能力です。Presidioは単なるドライな正規表現だけに頼りません。「Washington」がいつ人名で、いつ場所であるかを区別できるため、誤検知(False Positive)の率を大幅に下げることができます。

実装を始めましょう

このプロジェクトではPython 3.10を使用しています。PresidioとSpacyの言語モデルのインストールは数分で完了します:

pip install presidio-analyzer presidio-anonymizer spacy
python -m spacy download en_core_web_lg

1. Analyzerによるデータ分析

以下のコードは、ユーザーのチャット内容にどのような機密情報が含まれているかを「スキャン」します:

from presidio_analyzer import AnalyzerEngine

analyzer = AnalyzerEngine()
text_to_analyze = "管理者様、こんにちは。私はNguyen Van Aです。電話番号は0901234567です。123 Le Loi通りに送った注文について伺いたいのですが。"

# 検出したいエンティティを指定
results = analyzer.analyze(text=text_to_analyze, entities=["PERSON", "PHONE_NUMBER", "LOCATION"], language='en')

for res in results:
    print(res)

実務上の経験から、Spacyの en_core_web_lg モデルは、language='en' 設定であってもベトナム人の名前などをかなり正確に認識できます。ただし、特定の言語で95%以上の精度を達成するには、後のステップで微調整が必要になります。

2. Anonymizerによるデータの匿名化

Analyzerが報告した後、AI APIに送信する前にデータを「隠蔽」する処理を行います。

from presidio_anonymizer import AnonymizerEngine
from presidio_anonymizer.entities import OperatorConfig

anonymizer = AnonymizerEngine()

# 設定:名前は置換、電話番号は一部マスク、住所は削除
operators = {
    "PERSON": OperatorConfig("replace", {"new_value": "[NAME]"}),
    "PHONE_NUMBER": OperatorConfig("mask", {"type": "mask", "masking_char": "*", "chars_to_mask": 6, "from_end": True}),
    "LOCATION": OperatorConfig("redact", {})
}

anonymized_result = anonymizer.anonymize(
    text=text_to_analyze,
    analyzer_results=results,
    operators=operators
)

print(anonymized_result.text)

出力結果:「管理者様、こんにちは。私は[NAME]です。電話番号は0901******です。に送った注文について伺いたいのですが。」。この文字列は、セキュリティポリシーに違反することを恐れずにGPT-4に送信するのに十分安全です。

3. 特定のデータ形式(身分証明書番号、車のナンバーなど)へのカスタマイズ

Presidioはデフォルトで、ベトナムの12桁の身分証明書番号(CCCD)などをサポートしているわけではありません。以下のように、Regexを使用して Custom Recognizer を定義する必要があります:

from presidio_analyzer import PatternRecognizer, Pattern

# CCCD(12桁の連続した数字)のパターンを定義
cccd_pattern = Pattern(name="cccd_pattern", regex=r"\b\d{12}\b", score=0.5)

cccd_recognizer = PatternRecognizer(
    supported_entity="VN_CCCD", 
    patterns=[cccd_pattern],
    context=["身分証明書", "cccd", "識別", "識別番号"]
)

analyzer.registry.add_recognizer(cccd_recognizer)

本番環境での実践経験

半年間の運用の結果、システムが「ボトルネック」にならないための3つの重要な教訓を得ました:

  1. 処理速度: アプリケーションがリアルタイム性を求める場合、Transformerモデル(BERT/RoBERTa)を使用しないでください。Spacyの lg モデルと正規表現を組み合わせることで、遅延をわずか50-100msに抑えることができ、これはTransformerよりも10倍高速でありながら精度も確保できます。
  2. 誤検知の制御: デフォルトの score_threshold をそのまま使わないでください。サンプルデータでテストした後、検出漏れと誤検知のバランスを取るために、この数値を0.35前後に調整してください。
  3. 復元メカニズム(De-anonymization): AIが顧客の名前を呼んで回答する必要がある場合があります。その場合は、元の値と匿名化された値のマッピングをセッションごとにRedisに保存することをお勧めします。AIが [NAME] を含む結果を返したときに、逆マッピングを行ってユーザーに返信します。

結び

データセキュリティは、OpenAIやMicrosoftのような大手企業に「丸投げ」するものではありません.Presidioを使用してPIIを能動的にフィルタリングすることは、特にフィンテックやヘルスケア分野において顧客との信頼を築くのに役立ちます。わずか数行のコードで、AIシステムに強固な保護層を構築することができるのです。

Share: