您可以在此处阅读完整的研究报告。 Zeph Davis 法学硕士研究的要点 如果您想跳过本文的其余部分,我总结了以下主要发现: 与其他原始网络数据相比,法学硕士更重视精心策划的高质量数据集。 权威出版商主导着这些精选数据集。
与未归档的数据集相比
OpenWebText 和 OpenWebText2 提供的高 DA 内容比例要高得多。 LLM 开发人员更喜欢商业出版商的内容,。 分析了哪些数据集? Zeph Davis 的研究检查了对于训练大型语言模型很重要的四个关键数据集: Common Crawl:从互联网上抓取的不安全的网络文本存储库,质量控制最低。
C4:Common Crawl 的清理版本
专注于英文页面,排除重复和低质量的文 电话号码资源 本。它提供了一个更好的数据集,无需严格的管理。 OpenWebText:OpenAI WebText 的代理,强调从 Reddit 链接的高质量内容,并具有最低投票阈值。
OpenWebText2:OpenWebText 的后续版本,具有扩展和更新的数据集,同时保持相同的以标准为中心的方法。 值得注意的是,这些数据集的创 出售小型企业的利与弊 建并不相同。更精心策划的数据集(例如 OpenWebText 和 OpenWebText2)包含更高比例的权威内容,而未经过滤的来源(例如 CommonCrawl)则从更广泛但质量较低的网页池中提取内容。
数据集的差异会影响法学
硕士学习和生成答案的方式。 出版商是如何选择 博目录 参与这项研究的? 该研究使用 comScore 的网络流量来确定要分析的出版商。 研究人员重点关注了截至 2020 年 8 月媒体类别中排名前 15 的组合出版商,它们代表了最受关注的新闻和媒体组织。
选择过程排除了单一财产出版商、非媒体科技公司和用户生成的内容平台,而有利于更成熟的商业出版商。 使用了什么指标? 该研究使用 Moz 的领域权威 (DA) LLM 培训数据集来衡量网络内容的影响力和质量。
虽然 DA 不是搜索排名因素,但它是一个公认的指标,可以根据反向链接、域历史记录和网站大小等因素预测网站在 SERP 中排名的概率。 为了分析 LLM 内容偏好,该研究编译了 Common Crawl、OpenWebText、OpenWebText2 和 C4 中找到的所有 URL 的 Moz DA 分数。