Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
发送反馈
生产型机器学习系统:何时转换数据?
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
原始数据必须经过特征工程处理(转换)。何时应转换数据?一般来说,您可以在以下任一时间段执行特征工程:
在此方法中,您需要执行以下两个步骤:
编写代码或使用专用工具来转换原始数据。
将转换后的数据存储在模型可以提取的位置,例如磁盘上。
优势
系统仅转换一次原始数据。
系统可以分析整个数据集,以确定最佳转换策略。
缺点
当系统执行动态(在线)推理时,训练-服务偏差更危险。在使用动态推理的系统中,转换原始数据集的软件通常不同于提供预测的软件,这可能会导致训练-应用偏差。相比之下,使用静态(离线)推理的系统有时可以使用相同的软件。
在此方法中,转换是模型代码的一部分。该模型会提取原始数据并对其进行转换。
优势
即使您更改了转换,也可以继续使用相同的原始数据文件。
这样可确保在训练和预测时进行相同的转换。
缺点
复杂的转换可能会增加模型延迟时间。
系统会对每个批次执行转换。
转换每批数据可能很棘手。例如,假设您想使用Z 分数归一化 来转换原始数值数据。使用 z 分数归一化需要特征的平均值和标准差。不过,每批转换意味着您只能访问一批数据 ,而不能访问整个数据集。因此,如果批次差异很大,那么一个批次中 Z 得分为 -2.5 与另一个批次中 Z 得分为 -2.5 的含义并不相同。作为一种权宜解决方法,您的系统可以预先计算整个数据集的平均值和标准差,然后将它们用作模型中的常量。
发送反馈
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可 获得了许可,并且代码示例已根据 Apache 2.0 许可 获得了许可。有关详情,请参阅 Google 开发者网站政策 。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-07-27。
需要向我们提供更多信息?
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-07-27。"],[],[]]