• データリークとは、トレーニングデータセットの外部情報がモデル構築プロセスに漏れ込む現象。
  • データリークが発生すると、パフォーマンス指標が過大評価され、未知のデータに対して汎化できないモデルが生成される。
  • データリークの主な原因は7つあり、AIや人間の誤りによって発生する。
  • データリークを避けるために、トレーニングとテストセットの分割前に新しい特徴量を作成するのを避けることが重要。

データリークは、モデルの信頼性や汎化能力に影響を及ぼす重要な問題である。トレーニングとテストデータの分割前に新しい特徴量を作成することを避けることが、データリークを防ぐための重要なステップである。

元記事: https://towardsdatascience.com/seven-common-causes-of-data-leakage-in-machine-learning-75f8a6243ea5