核实数据虽然有时很烦人,但对报道的有效性至关重要。如果你能使用一些工具,例如LexisNexis、康奈尔大学的arXiv项目、谷歌学术 賭博數據 搜索以及最近推出的谷歌数据搜索,你就可以研究其他人对某个项目或研究的研究和使用情况。一旦你验证并核实了你的数据,将来判断其有效性就会更容易。
在哪里查找数据
显然,人打电话。正如有多个来源可以验证你的数据一样,你也有大量的来源可以收集数据。其中包括政府数据、非政府组织数据、教育或大学数据、医疗或科学数据、众包数据等等。了解为数据科学项目寻找数据集的最佳来源。
现在让我们进入主要步骤,即数据清理。
2 —数据清理
数据清理并非一项光鲜亮丽 他们三人邀请所有朋友展示他们的 的任务,但它却是数据整理 (Data Wrangling) 的核心环节。要成为数据清理专家,你必须具备精准的判断力、特定领域的知识,以及最重要的耐心。没错,就是耐心。
从技术角度你已经具备 Python 的基础知识,本章我们将介绍如何使用 Python 进行数据整理。
数据清理基础知识
要进行操作,我们需要数据。在 首席执行官电子邮件列表这里,我们将使用联合国儿童基金会与童工相关的数据集。让我先简单介绍一下这些数据。初始数据集包含多指标类集调查 (MICS)。这些调查是由联合国儿童基金会工作人员和志愿者进行的住户调查,旨在帮助研究世界各地妇女和儿童的生活状况。在查阅最新的调查数据时,我们从津巴布韦最新的 MICS 中提取了一些数据进行分析。您更新的 .csv 文件。