变得更容易,从数据项目早期阶段的简单任务到为整个数据团队创建更好的框架。
我与全球数百家数据驱动型企 业合作,很高兴看到企业如此快速且富有创意地将 LLM 融入到他们的工作流程中。
让我们讨论一些使用 LLM 进行 谎言数据 数据处理、丰富和分析的常见示例,以揭开 LLM 使用的神秘面纱,并强调数据驱动型企业相对简单但非常节省时间的方法。
法学硕士加速工程进程
LLM 技术对数据工程产生了巨大影响。由于数据工程包含可以对数据执行的各种操作,因此 LLM 的使用级别也有所不同。
这项工作最基础的方面之一是研究。实施新的数据工程解决方案通常需要阅读各种论文和记录的用例。
但现在,你可以请法学硕士为你的问 特别感谢Daasity的朋友们 题提出解决方案,它会提供你可以尝试的不同架构。然后,你可以请求帮助实现你喜欢的架构,并提供分步说明。这可以让你更快地进入实际工程。
法学硕士可以组织非结构化数据
现在我们来讨论一下数据处理。数据工程通常涉及大量非结构化数据,需要整理并正确存储这些数据以供查询。
LLM 可以帮你实现这一点。例如,从电子商务网站提取的 HTML 文档中解析产品名称和价格需要自定义解析器,而 LLM 现在可以编写自定义解析器的基础。
此外,一些不太复杂的用例允许从非结构化数据中提取信息而无需解析。例如,GPT Researcher 是一款专为在线研究而设计的工具,可以根据需求从在线网站中提取特定信息。
当然,项目规模可能会限制此类工具的使用。但 LLM 技术为小规模项目提供的帮助无疑是有价值的。
基本上,法学硕士在数据工程流程的不同部分都很有用。它们提供的结果并不总是 100% 准确,但它们仍在改变我们处理数据的方式和速度。
LLM 简化 B2B 数据丰富
LLM 也是用于数据清理和丰富的绝佳 AI 工具。我们以非结构化地址或静态位置数据为例。
假设您有一个包含 1,000 份公司资料的数据集,其中包含带有自由用户输入字段的数据。其中之一是“位置”。一些公司可 购买线索 能输入了州(例如德克萨斯州)作为其地址,而其他公司则使用城市(例如达拉斯)。必须对此类数据进行结构化以进行分析。
您可以将数据集上传到 LLM,并制定提示来统一这些数据。例如:“查找带有城市名称的‘位置’值,并将其更改为该城市所在州的名称。”
这是另一个例子。获取有关公司专长是什么的准确信息可能很复杂,因为大多数上市公司的描述都是为了营销工作,使用诸如“推动创新”或“改变 x 领域”之类的流行词。但你需要确切地知道他们专长于什么——尤其是在B2B领域。
LLM 可以处理公司描述并根据特定标准对其进行标记或提取和总结相关事实。
它是如何工作的?让我们看看如何在 LLM 的帮助下实现自动分类。
您拥有相同的数据集,其中包含 1,000 份公司资料和潜在客户列表。假设您正在为使用或可能使用AI 的公司构建工具。您希望通过您的服务接触符合您理想客户资料的公司。
公司描述是从公开的社交网络上的公司列表中提取的,这意味着您正在处理公司生成的描述。您可以指示法学硕士分析哪些公司使用人工智能,并以表格、信息图或文本摘要的形式呈现结果。
法学硕士可以检索隐藏数据
通常,最可靠的数据丰富选项是使用针对您的特定需求进行微调的 LLM,尤其是在处理大数据时。这是一个昂贵的选项,对于资源受限的公司来说并不容易获得。不过,我鼓励您至少尝试使用易于访问的 LLM 解决方案进行测试。
说到使用 LLM 来丰富数据,其主要优势在于能够以通常需要人类或类人智力的方式从数据中提取信息。此类任务需要理解背景并具备得出结论的能力。
有人可能会说,从源数据中提取“免费试用”之类的信息不算丰富,但根据我的经验,这是一项比数据清理或简单地查找关键字更高级别的任务。法学硕士对上下文的理解程度很高,他们可以从数据中提取信息,而无需使用源中提到的确切短语。这会产生宝贵的、难以获得的数据。