结果显示数据集管理和 DA 分布之间存在很强的相关性。与此同时,未经策划的数据集主要包含低 DA 网站,而策划的数据集则偏重于高 DA 出版商。 了解任何网站的数字健康状况。 使用 Moz DA/PA 指标 我们从 Zeph Davis 的研究中学到了什么? 大多数数据集都是为了提高人工智能输出的质量而准备的。
Zeph Davis 的研究清楚
地表明,虽然这些模,但它们更加重视精心策划的数据集,以优先考虑质量。 策展塑造了法学硕士如何处理和生产内容。像 Common Crawl 这样的原始数据集是从开放网络中提取的,混合了高质量和低质量的来源。
相比之下,OpenWebText 和 OpenWebText2 等精选数据集会过滤掉低质量的内容,以产生更集中的可靠信息。 这种深思熟虑的选择过程提高了模型准确性、响应质量和内容相关性。这也解释了为什么高权威网站主导人工智能输出。
法学硕士更喜欢来自
有高域名权威的商业出版商的高质量内容。 法学硕士不会平等对待所有网络内容。 Zeph Davis 的研究证实,高 DA 商业出版商主导着精选数据集。 我们结合使用 Moz API 和 Google Collab 对研究中突出显示的所有 URL 进行批量 DA 分析。
您可以在此处查看自定义脚本。 84.2% 的受 海外数据 访出版商平均 DA 为 60 或更高,显示出对知名媒体品牌的明显偏好。 随着数据集变得更加精心策划,高 DA 内容的比例不断增加,《纽约时报》和新闻集团等出版商出现的频率也越来越高。
人工智能公司与主要出版商
合作的新趋势 生活中没有什么是免费的,人工智能公司也知道这一点。出版商对受版权保护的内容的强烈反对迫使人工智能公司与新闻集团和阿克 当你准备出售你的小企业 塞尔·施普林格等精选出版商达成独家许可协议。 许多出版商显然都使用了 robots.txt 规则作为这些谈判的筹码。
单击此处下载 PDF 格式的图形并浏览源链接。 这是否意 博目录 味着出版商在许可协议方面更加突出? 不会。虽然与 AI 合作的出版商在 OpenWebText2 中的出现频率比在 WebText Top 1000 中的出现频率更高,但这种相关性并不是绝对的。
OpenWebText 2 排名前五
的出版商中的三个(NYT、Advance 和 Gannett)没有与 OpenAI 签订许可协议。 此外,WebText Top 1000 中这些发布商的比例高于 OpenWebText2(13.47% vs. 12.04%)。