sfr-embedding-mistral 模型使用来自多个领域的。对于检索任务,它利用来自各种问答、事实核查和一般信息检索来源的数据。聚类任务使用来自科学和医学领域的研究文章数据(不包括 mteb 中使用的数据以防止污染)。该模型还结合了来自在线评论、情绪分析、意图分类和有毒对话检测等领域的数据集,用于分类任务。对于语义文本相似性 (sts),它在多个基准数据集上进行训练,而对于重新排名任务,它使用来自科学文献和技术论坛的数据。在聚类和分类中,标签被视为文档,仅对其特定负片应用对比损失,而不使用批内负片。对于其他任务,使用对比损失和批内负片。本报告主要介绍 mteb 基准的开发集上的结果。
我们使用批处理大小 2,048
学习率为 1e−5 和 100 步 lr-warmup 随后线性衰减对e5-mistral-7b-instruct进行微调。每个查询-文档对都与 7 个硬负样本一起进行批处理。我们对查询使用的最大序列长度为 128,对文档使用的最大序列长度为 256。此微调过程在 8 个 a100 gpu 上花费了大约 15 个小时。将等级 r=8 的 lora 适配器添加到所 手机号码数据 有线性层,从而产生 21m 个可训练参数。我们的实现基ngface peft 库。
多任务训练有利于泛化
我们观察到,嵌入模型与聚类任务集成后,检索性能显著增强,并且通过来自多个任务的知识转移,其有效性可以进一步提高。通过明确引导文档指向高级标签,使 ig 号码 用聚类数据进行训练可使嵌入模型更有效地导航和检索信息。虽然所有三个聚类数据集都来自科学领域,但加入额外的聚类训练可显著改善所有任务。我们假设聚类标签鼓励模型根据高级概念对嵌入进行正则化,从而更好地分离不同领域的数据。
此外,通过多任务训练和针对具体任务的适配,可以增强模型的泛化能力,不仅提升 理不仅可以识别供 了搜索结果的准确率,也保证了模型对不同领域和任务的适应性,这对于实际应用场景至关重要。