在传统软件开发中,代码是最关键的部分。相比之下,在人工智能 (AI) 和机器学习 (ML) 开发中,数据才是关键。这是因为AI 训练数据模型包括智能算法必须学习的多阶段活动,才能成功执行任务。
在这种情况下,你今天在训练过程中犯的一个小错误可能会导致你的数据模型出现故障。这也可能带来灾难性的后果——例如,医疗、金融,当然还有自动驾驶汽车领域的错误决策。
那么,我们应该注意哪些训练数据错误,以及可以采取哪些步骤来避免这些错误?让我们看看五大数据错误以及如何预防它们。
1. 潜在的标签错误
最常见的错误与数据标记有关。根据麻省理工学院研究人员进行的一项研究,用于训练无数计算机视觉算法的数据库在所有数据集中的平均错误率为 3.4%。虽然这听起来可能不多,但实际 电报数据 错误数量从 2,900 多个错误到 500 多万个错误不等。
因此,高质量的数据集对于开发强大的数据训练模型至关重要。然而,这并不总是容易的,因为质量差的数据并不一定显而易见。数据单元通常包含带有音频片段、图像、文本或视频的文件。
例如,如果您让数据注释者在摩托车图像上画出方框,他们就会在所有摩托车照片周围画出边界框。预期结果是摩托车周围有紧密的边界框。分配给文件的标签或文件属性赋予了文件含义。标签属性必须包括标记时间、标记者以及标记条件。
有时,您可能会错过一些标签,因为注释者没有在图像中的所有摩托车周围放置边界框。或者这可能是对指令的错误表述,注释者所做的超出了要求。或者可能是像不正确的拟合这样简单的事情。
我该如何避免此类错误?
我们可以向注释者提供明确的指示以避免此类情况,从而降低犯此类错误的风险。
2. 使用数据测试模型
重复使用数据来测试新的训练模型是不明智的。可以这样想:如果某人已经从数据中学到一些东西并将其应用于其工作领域,那么在不同领域使用相同的数据可能会导致错误和偏见。在这种情况下,了解和减轻人工智能偏见至关重要。您还会增加遭受重复推理的风险。
就像生活中一样,机器学习也遵循同样的 自然语言处理集群 逻辑。智能算法可以在从大量训练数据集中学习后准确预测答案。当您将相同的训练数据用于另一个模型或基于 AI 的应用程序时,您最终可能会得到与之前的学习练习相关的结果。
我该如何避免此类错误?
为了避免任何潜在的偏见,您必须检查所有训练数据以确定是否有其他项目使用了相同的数据。在开始 ML 数据训练练习之前,务必使用新数据集测试数据模型。
- 当您没有代表性数据集时,通常会发生类别不平衡。例如,如果您正在训练算法来识别男性,但您的训练数据模型仅代表一个种族,那么您的模型将只能在识别训练模型中所代表的所显示种族的男性方面表现良好。在这种情况下,机器学习算法可能会错过所有其他种族群体。
- 数据新近性很重要,因为随着 线数据库 世界的发展和前进,所有模型都会随着时间的推移而退化。例如,在疫情爆发后,随着口罩和个人防护装备的增加,识别人脸变得越来越困难。