企業がデータレイクを作るのは、拡張性と安全性が高いからです。 データの総所有コストを下げ、データ管理を簡素化することができます。 しかし、適切に管理し、定期的にクリーニングを行わないと、よく言われる “データ沼 “になってしまう。
データレイクの要素
データレイクの有効活用をサポートするために、データレイクにはいくつかの必須要素があります:
- レイクに保存されている全データの検索可能なデータカタログ
- 機密データの特定に役立つ分類タクソノミーや、必要に応じてデータのマスキングや暗号化を行うツールなど、データガバナンスを整備する。
- 使用状況を監視し、許可されたユーザーのみがデータにアクセスできるデータセキュリティ機能
続きを読む データマスキングで顧客データのプライバシーを守り、安全でセキュアにする方法
データレイクの主な用途
データレイクは、データサイエンティストやビジネスアナリストが、さまざまなビッグデータの処理と分析に使用します。 例えば、ビジネスアナリストは、問題や機会を特定するのに役立つダッシュボードやビジュアライゼーションを作成することができます。 データサイエンティストは、データマイニング、機械学習、予測分析を行い、ビジネストレンドの特定、不正の検出、リスクマネジメントを行うことができます。
データレイクとデータウェアハウスの比較
データレイクとデータウェアハウスは同じではありません。どちらも組織全体から多様なデータを保存しますが、データウェアハウスは業務システムからのリレーショナルデータとトランザクションデータを事前に保存します。 また、データレイクがデータを生のまま自然な形で保存するのに対し、データウェアハウスは分析用に加工、洗浄、最適化されたデータを保存します。
データレイクの種類
データレイクは、オンプレミスでもクラウドでも存在します。 例えば、Google Storage Cloud、Amazon S3、Apache Hadopp、Microsoft Azure Data Lakeなどです。