こんばんは。小寺です。AWS Entity ResolutionがGAになりました。
https://aws.amazon.com/about-aws/whats-new/2023/07/aws-entity-resolution-generally-available/
AWS Entity Resolutionとは
AWS Entity Resolutionとは、複数のアプリケーション、チャネル、データストアに保存されている関連レコードを検索でき、データをリンクさせる機械学習 (ML) ベースなマネージドサービスです。
ルールベースおよび MLを活用し、ワークフローをカスタマイズしながらビジネス、プロダクト、買い手等の情報を統合して管理することができます。利用メリットとしては、自動的に関連付けされたデータから、より深い顧客インサイト、つまり潜在顧客を見つけることができます。
明確なサプライチェーンデータによりオペレーションを改善したり、質の高いマーケティングキャンペーンが実行できたり、投資に関する意思決定をより確実に実行できます。
AWS Entity Resolutionの特長
・事前データの準備
AWS Glue からデータを読み取り、一致処理のデータ入力として利用します。
最大20個までデータ入力ができ、データ入力用のテーブルの各行は、一意の識別子が主キーとして機能するレコードとして処理されます。 暗号化されたデータセットとして動作します。
既存の AWS Glue データ入力から独自のデータ スキーマまたはブループリントの利用が可能で、インタラクティブなUIやJSON エディターを使ったカスタマイズデータセットも作れます。
特殊文字や余分なスペースの削除、テキストの小文字への書式設定などの処理を改善するために、照合前にデータ入力も正規化されます。
・ワークフローが簡単に作れる
エンティティマッチフローは、1つ以上のマッチング ワークフローを設定して、さまざまなデータ入力を比較し、エンティティ解決や機械学習 (ML) の経験がなくても、ルールベースのマッチングや機械学習マッチング等の手法が利用可能です。
リソース番号、処理されたレコード数、見つかった一致の数など、既存の一致するワークフローとメトリクスのジョブ ステータスも表示ができます。
・データの保護
デフォルトの暗号化機能があり、サービスに入力されるすべてのデータに対して暗号化キーが提供されます。
サーバー側で暗号化およびハッシュされたデータを取り込んで、ルールベースの照合ワークフローの実行ができます。
・ルールベースのマッチング
入力フィールドに基づいて関連レコードを検索するための、AWS マネジメントコンソールまたはコマンドラインインターフェイスですぐに使用できるルールのセットが含まれています。
Amazon S3 バケットのデータ出力には、ルールベースの一致技術を使用して AWS Entity Resolution によって生成された一致グループが含まれます。各一致グループには、一致を理解するのに役立つように、それに関連付けられた一致の生成に使用されたルール番号が付いています。
・事前設定された機械学習マッチング
すべてのデータ入力、特に消費者ベースのレコードにわたって一致を見つけるための事前構成された ML モデルがあります。
このモデルは、名前、電子メール アドレス、電話番号、住所、生年月日のデータ型に関連付けられたものとして利用します。
他の一致グループと比較した一致の品質を説明する各グループの信頼スコアを持つ、関連レコードの一致グループを生成します。
関連するサービスについて
・Amazon S3
AWS Entity Resolution に持ち込みしたデータをAmazon S3 に保存できます。
・AWS Glue
Amazon S3 のデータから AWS Glue テーブルを作成し、AWS Entity Resolution で使用できます。
・AWS CloudTrail
AWS Entity Resolution と CloudTrail ログを使用して、AWS サービス アクティビティの分析を強化します。