十种数据预处置中的数据暴露形式解析 识别与防止战略
在预处置数据时,须要将训练数据和测试数据齐全分开。任何时刻经常使用来自一切数据的消息来转换值-无论是填充缺失值,将类别转换为数字,缩放特色,分箱还是平衡类-都有或者将测试数据消息混合到训练数据中。这使得模型的测试结果无法靠,由于模型曾经从它不应该看到的形式中学习了。
在预处置数据时,须要将训练数据和测试数据齐全分开。任何时刻经常使用来自一切数据的消息来转换值-无论是填充缺失值,将类别转换为数字,缩放特色,分箱还是平衡类-都有或者将测试数据消息混合到训练数据中。这使得模型的测试结果无法靠,由于模型曾经从它不应该看到的形式中学习了。