机器学习系统在现实世界里的应用 (ML Systems in the Real World):癌症预测

在本课中,您将排查与癌症预测相关的机器学习现实应用问题*。

现实世界应用示例:癌症预测

  • 模型经过训练后可以根据病历来预测“病人患有癌症的概率”
癌细胞
  • 模型经过训练后可以根据病历来预测“病人患有癌症的概率”
  • 特征包括病人年龄、性别、之前的病史、医院名称、生命体征、检验结果
癌细胞
  • 模型经过训练后可以根据病历来预测“病人患有癌症的概率”
  • 特征包括病人年龄、性别、之前的病史、医院名称、生命体征、检验结果
  • 模型在处理预留检验数据方面表现出色
癌细胞
  • 模型经过训练后可以根据病历来预测“病人患有癌症的概率”
  • 特征包括病人年龄、性别、之前的病史、医院名称、生命体征、检验结果
  • 模型在处理预留检验数据方面表现出色
  • 但模型在针对新病人进行预测时表现却很糟糕,这是为什么呢?
癌细胞

您为什么认为该模型无法很好地针对新病人进行预测呢?看看您能不能找出问题所在,然后点击下面的“播放”按钮 ▶,看看您的判断是否正确。

*我们在制作该模块时大致参考了 Kaufman、Rosset 和 Perlich 的《Leakage in data mining: formulation, detection, and avoidance》(在制作期间进行了一些修改)。