电视台网站开发网站建设宽度一般都是多少
- 作者: 五速梦信息网
- 时间: 2026年03月21日 11:25
当前位置: 首页 > news >正文
电视台网站开发,网站建设宽度一般都是多少,织梦视频网站模板,刚刚廊坊发生大事了BGE模型
BGE模型对应的技术报告为《C-Pack: Packaged Resources To Advance General Chinese Embedding》
训练数据
为了训练BGE向量模型#xff0c;构建了C-MTP数据集#xff0c;它包括了用来训练文本向量的文本对数据#xff08;问答对、两个同义句子、相同主题的两个文…BGE模型
BGE模型对应的技术报告为《C-Pack: Packaged Resources To Advance General Chinese Embedding》
训练数据
为了训练BGE向量模型构建了C-MTP数据集它包括了用来训练文本向量的文本对数据问答对、两个同义句子、相同主题的两个文档等为了保证文章向量的泛化性数据集需要同时满足大规模和多样性C-MTP包括两个部分未标注数据C-MTP (unlabeled)和标注数据C-MTP (labeled)。
C-MTP (unlabeled)数据主要来源是开放网络语料库如Wudao corpus对于每一篇文章抽取(title, passage)来构成一个文本对也按同样的处理方式从知乎、百科等抽取了文本对。除了网络开放语料之外还从以下公开中文数据集中抽取了文本对 CSL (scientific literature)Amazon-Review-Zh (reviews)Wiki Atomic Edits (paraphrases)CMRC (machine reading comprehension)XLSUM-Zh (summarization)
直接抽取的文本对可能质量不高使用Text2VecChinese给文本对打分只保留分数在0.43上的文本对数据集最终文本对的大小为100M
C-MTP (labeled)标注文本对来自以下标注数据集一共838465条 T2-RankingDuReadermMARCOCMedQA-v2multi-cprNLI-Zh3cmnliocnli
训练流程
BGE模型基于BERT-like架构使用最后一层的特殊token [CLS]作为文本向量有三个不同规模的模型组成
large (326M参数)base (102M参数)small (24M 参数)
BGE的训练分为三个部分1)预训练2)通用微调用C-MTP (unlabeled)进行对比学习3)任务相关微调用C-MTP (labeled)进行多任务微调学习。 预训练使用Wudao语料来训练模型使用RetroMAE中提出的自动编码方式(MAE-stype)来进行预训练。 通用微调将预训练好的模型在C-MTP (unlabeled)数据集上通过对比学习微调。 m i n . ∑ ( p , q ) − log e e p , e q / τ e e p , e q / τ ∑ Q ′ e e p , e q ′ / τ min\ . \sum_{(p,q)} -\log\frac{e^{e_p, e_q}/\tau} {e^{e_p, eq/\tau}\sum{Q^{\prime}}e^{ep, e{q^{\prime}}/\tau}} min .∑(p,q)−logeep,eq/τ∑Q′eep,eq′/τeep,eq/τ式中p和q是文本对 q ′ ∈ Q ′ q^{\prime} \in Q^{\prime} q′∈Q′是负样本 τ \tau τ是温度。负样本仅使用in-batch negative samplesbatch size 高达19200。训练时使用gradient checkpointing 和 cross-device embedding sharing的组合策略来使得batch size可以很大
任务相关微调将前一步训练好的向量模型在C-MTP (labeled)数据集上进一步微调。为了协调不同任务采用如下两个策略
基于指令的微调对于每一个文本对(p,q)将一个任务相关的指令 I t I_t It添加到query q上 q ′ ← q I t q^{\prime} \leftarrow q I_t q′←qIt指令是一个用来描述任务的prompt比如search relevant passages for the query.对于每一个文本对(p,q)挖掘了一个hard negative sample q ′ q^{\prime} q′挖掘方法是基于ANN挖掘的。
消融实验表明训练的各个阶段对于模型效果提升都有帮助w.o.Instruct是在第三阶段训练时不使用指令微调BGE-i是指经过第二阶段通用微调的模型BGE-i w.o. pre-train是不使用RetroMAE预训练的模型BGE-f经过全部训练流程的模型 也做了实验来说明大batch-size对于模型性能的影响在大多数任务上大batch size对于embedding模型是有益处的尤其是检索任务效果提升特别明显。
BGE-M3模型
BGE-M3对应的技术报告为《BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation》
BGE-M3的M3是Multi-Linguality,Multi-Functionality, and Multi-Granularity的简称也就是模型支持多语言、多种能力稠密检索、稀疏检索、多向量检索多粒度最高支持8192长度的输入文本。 训练数据
BGE-M3的数据构造分为三个部分从未标注语料得到的无监督数据、从标注语料得到的微调数据、合成微调数据。 无监督数据共1.2 billion文本对包括了194种语言和2655跨语言对。主要从不同的多语言语料库提取titlebody, title-abstract, instruction-output等数据来源有 多语言语料库Wikipedia、S2ORC、xP3、mC4、CC-NewsMTPBGE模型的数据集翻译相关数据集NLLB、CCMatrix 从标注语料得到的微调数据数据来源有 英文包括8个数据集HotpotQATriviaQANQMS MARCOCOLIEEPubMedQA SQuAD NLI。中文包括7个数据集DuReadermMARCO-ZH T 2 T^2 T2-Ranking LawGPTCMedQAv2NLI-zhLeCaRDv2。其他语言MIRACL, Mr.TyDi 合成数据(MultiLongDoc)从Wiki和MC4数据集中采样了长文章并从其中随机选择段落由GPT-5基于这些段落生成问题。生成的问题和段落组成的文本对最终作为微调数据的一部分。 GPT 3.5使用的prompt为“You are a curious AI assistant, please generate one specific and valuable question based on the following text. The generated question should revolve around the core content of this text, and avoid using pronouns (e.g., “this”). Note that you should generate only one question, without including additional content:” BGE-M3混合检索实现
BGE-M3的Multi-Functionality是指实现混合检索具体如下
稠密检索(Dense retrieval)输入query q经过文本编码器的隐状态层 H q \mathbf{H}_q Hq得到取[CLS]的归一化隐状态作为向量 e q n o r m ( H q [ 0 ] ) e_q norm(\mathbf{H}_q[0]) eqnorm(Hq[0])类似地passage p的向量 e p n o r m ( H p [ 0 ] ) e_p norm(\mathbf{H}_p[0]) epnorm(Hp[0])。 query和passage的相关分数由两个向量 e q e_q eq和 e p ep ep的内积表示 s d e n s e ← ⟨ e p , e q ⟩ s{dense} \leftarrow \langle e_p, eq \rangle sdense←⟨ep,eq⟩。词性检索(Lexical Retrieval)输入query的每一元素term t即 tokenterm权重为 w q t ← R e l u ( W l e x T H q [ i ] ) w{qt} \leftarrow Relu(\mathbf{W}^T{lex} \mathbf{H}q[i]) wqt←Relu(WlexTHq[i])式中的 W l e x ∈ R d × 1 \mathbf{W}{lex} \in R^{d \times 1} Wlex∈Rd×1是映射隐状态到浮点数的矩阵如果一个term t在query中出现多次只保留其最大值。按照同样的方式计算passage的term权重。query和passage的相关分数由两者共现项记作 q ∩ p q \cap p q∩p计算得到 s l e x ← ∑ t ∈ q ∩ p ( w q t ∗ w p t ) s{lex} \leftarrow \sum{t \in q \cap p} (w_{qt} * w{p_t}) slex←∑t∈q∩p(wqt∗wpt)。多向量检索(Multi-Vector Retrieval)多向量检索使用query和passage的整个输出向量 E q n o r m ( W m u l T H q ) Eq norm(\mathbf{W^T{mul}} \mathbf{H}_q) Eqnorm(WmulTHq) E p n o r m ( W m u l T H p ) Ep norm(\mathbf{W^T{mul}} \mathbf{H}p) Epnorm(WmulTHp)式中的 W m u l ∈ R d × d \mathbf{W}{mul} \in R^{d \times d} Wmul∈Rd×d是可学习映射矩阵。query和passage的相关分数为 s m u l ← 1 N ∑ i 1 N m a x j 1 M E q [ i ] ⋅ E p T [ j ] s{mul} \leftarrow \frac{1}{N} \sum^N{i1} max^M_{j1} E_q[i] \cdot E^Tp[j] smul←N1∑i1Nmaxj1MEq[i]⋅EpT[j] N和M分别是query和passage的长度。
因为向量模型的多功能能力所以可以实现混合检索过程首先候选结果由每种方法单独得到多向量检索成本很高可考虑省略然后最后检索结果根据各相关分数之和来排序 s r a n k ← s d e n s e s l e x s m u l s{rank} \leftarrow s{dense} s{lex} s{mul} srank←sdenseslexsmul。
Self-Knowledge Distillation
向量模型训练是为了将正样本从负样本中区分开损失函数为如下式所表示的InfoNCE损失函数式中 p ∗ p^* p∗和 P ′ P^{\prime} P′是query q对应的正样本及负样本。 s ( ⋅ ) s(\cdot) s(⋅) 是 { s d e n s e ( ⋅ ) , s l e x ( ⋅ ) , s m u l ( ⋅ ) } {s{dense}(\cdot) , s{lex}(\cdot) , s{mul}(\cdot) } {sdense(⋅),slex(⋅),smul(⋅)}中的任意一个。 L − log e x p ( s ( q , p ∗ ) / τ ) ∑ p ∈ { p ∗ , P ′ } e x p ( s ( q , p ) / τ ) \mathcal{L} -\log \frac{exp(s(q, p^)/\tau)}{\sum_{p \in {p^, P^{\prime}}} exp(s(q,p)/\tau) } L−log∑p∈{p∗,P′}exp(s(q,p)/τ)exp(s(q,p∗)/τ) BGE-M3中的三种不同检索方法的目标函数可能会彼此冲突解决办法是使用Self-Knowledge Distillation。 三种检索方法融合的最简单方法是直接求和 s i n t e r ← s d e n s e s l e x s m u l s{inter} \leftarrow s{dense} s{lex} s{mul} sinter←sdenseslexsmul。 对于每一种检索方法可以使用融合分数 s i n t e r s{inter} sinter作为teacher因此其损失函数可修改成 L ∗ ′ ← − p ( s i n t e r ) ∗ log p ( s ∗ ) \mathcal{L}^{\prime}* \leftarrow -p(s{inter}) * \log p(s) L∗′←−p(sinter)∗logp(s∗)。式中的 p ( ⋅ ) p(\cdot) p(⋅)是softmax激活函数 s ∗ s_ s∗是 { s d e n s e ( ⋅ ) , s l e x ( ⋅ ) , s m u l ( ⋅ ) } {s{dense}(\cdot) , s{lex}(\cdot) , s{mul}(\cdot) } {sdense(⋅),slex(⋅),smul(⋅)}中的任意一个。 将前一步的损失函数进行融合与归一化 L ′ ← ( L d e n s e ′ L l e x ′ L m u l ′ ) / 3 \mathcal{L}^{\prime} \leftarrow (\mathcal{L}^{\prime}{dense} \mathcal{L}^{\prime}{lex}\mathcal{L}^{\prime}{mul} )/3 L′←(Ldense′Llex′Lmul′)/3 Self-Knowledge Distillation最终的损失函数为 L \mathcal{L} L和 L ′ \mathcal{L}^{\prime} L′的线性组合 L f i n a l ← L L ′ \mathcal{L}_{final} \leftarrow \mathcal{L} \mathcal{L}^{\prime} Lfinal←LL′
BGE-M3训练过程
像BGE一样BGE-M3也是多阶段训练 经过RetroMAE 方法继续预训练的XLM-RoBERTa作为文本编码器。扩充了XLM-RoBERTa的最大位置向量到8192。数据来源为PIle、Wudao、mC4数据集从中采样了184M数据覆盖了105种语言。 使用无监督数据用对比学习方式预训练这一阶段只有稠密检索向量被训练。 应用Self-Knowledge Distillation技术对向量模型继续微调标注语料和合成数据都在这个阶段使用并使用ANN方法挖掘了难负例。 为了保证训练过程中的大batch size 和长本文序列训练优化了训练过程
根据长度对文本数据进行分组并从每组中采样数据确保一个batch内文本长度相对相似从而减少填充。同时数据程序会首先从组内采样足够的数据然后分配给各机器random seed保持固定保证不同机器的计算开销尽可能相近。为了减少文本建模时的显存消耗将一批数据分成多个小批。对于每个小批我们利用模型编码文本收集输出的向量同时丢弃所有前向传播中的中间状态最后汇总向量计算损失。这个方法可以显著增加batch size。不同GPU的embedding向量被广播允许每台机器在分布式环境里获取到所有向量可以扩展in-batch 负样本的规模 考虑到用户可能没有足够的资源或者数据来训练长文本模型提出了一个MCLS策略使得无需训练就能增强模型的长文本能力。这个策略在推理时应用使用多个CLS token来联合捕获长文本的语义。该策略为每个固定数量的令牌插入一个CLS token论文使用的是256个token每个CLS token可以从相邻的令牌获取语义信息。最后通过对所有CLS token的最后隐藏状态求平均值来获得最终的文本向量。
参考资料 Xiao, Shitao, Zheng Liu, Peitian Zhang, and Niklas Muennighof. 2023. “C-Pack: Packaged Resources To Advance General Chinese Embedding,” September. Chen, Jianlv, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian, and Zheng Liu. n.d. “BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation.” FlagEmbedding github
- 上一篇: 电商做网站网页升级访问永久
- 下一篇: 电视台网站模版网站关键词部署
相关文章
-
电商做网站网页升级访问永久
电商做网站网页升级访问永久
- 技术栈
- 2026年03月21日
-
电商专业网站建设的毕业设计物流行业网站源码
电商专业网站建设的毕业设计物流行业网站源码
- 技术栈
- 2026年03月21日
-
电商小程序开发定制郑州网站seo公司
电商小程序开发定制郑州网站seo公司
- 技术栈
- 2026年03月21日
-
电视台网站模版网站关键词部署
电视台网站模版网站关键词部署
- 技术栈
- 2026年03月21日
-
电信的网做的网站移动网打不开该找电信还是移动h5制作软件电脑
电信的网做的网站移动网打不开该找电信还是移动h5制作软件电脑
- 技术栈
- 2026年03月21日
-
电信固定ip如何做网站广州十大装修设计公司
电信固定ip如何做网站广州十大装修设计公司
- 技术栈
- 2026年03月21日






