データマスキングとは、データのセキュリティとプライバシーを向上させるために、権限のない人やアプリケーションによる個人データの暴露や使用を防止または制限しながら、権限のある人やアプリケーションが個人データを使用できるようにデータを変更する技術である。 データ難読化と呼ばれることもある。
データマスキングにはいくつかの種類があり、それぞれに利点と欠点がある。
静的データマスキング
静的データマスキング(SDM)とは、静止状態のデータを変更することによって、機密情報を恒久的に置き換えることである。 このような場合、開発者やマーケティング担当者は、もはや現実世界を重要な形で反映していないデータセットを扱うことになりかねない。
ダイナミック・データ・マスキング
ダイナミック・データ・マスキングは、輸送中のセンシティブなデータを置き換えるもので、元のデータは変更されず、マスキングもされないため、モデル・ドリフトやデータ・ドリフトの問題が発生しにくい。 しかし、データが急速に変化する場合、重要な点で現実と乖離したり、洞察や機会を逃したりする危険性がある。 ダイナミック・データ・マスキングは、プログラムの実行中に行われ、必要に応じてオンデマンドで実行される。 動的データマスキングでは、元の完全なデータセットは影響を受けず、マスキングされずに保存される。
オンザフライ・データ・マスキング
On-the-flyはデータマスキングの一種で、抽出-変換-ロード(ETL)メソッドを使用して、あるデータソースまたは環境から機密データを変換し、マスキングして、別のデータソース/環境に送信し、その結果マスキングされたデータを共有または使用できるようにする。 元のデータはマスクされないまま、マスクされたデータはテストや開発環境、あるいはマスクされたデータを必要とする他のアプリケーションで使用される。
データマスキングの歴史
データマスキングの必要性は年々進化している。 当初は、ソフトウェア開発者、データサイエンティスト、ソフトウェアテスターが社内で主に使用する手法として始まったが、テスト環境を本番データベースから切り離したいと考えている組織では、特に広く使われるようになっている。 現在、多くの企業がデータマスキング機能を提供しており、スタンドアローンのプライバシー保護アプリとして、あるいは顧客データプラットフォーム(CDP)のような大規模な製品の一部として提供している。
データマスキング市場の規模は?
データマスキング市場の総額は2016年に3億4,730万ドルで、2022年には7億6,700万ドルに達し、年間平均成長率(CAGR)は14.8%になると予測されている。 このような成長の背景には、プライバシー保護に関する懸念や規制の高まり、管理・保護が必要な内部環境やクラウド環境における顧客データの急激な増大などがある。