问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

BERT模型

发布网友 发布时间:2023-04-25 01:41

我来回答

1个回答

热心网友 时间:2023-10-13 19:18

BERT有两部分:pre-training和fine-tuning。在pre-training阶段,会在没有标注数据且不同预训练任务上训练模型;在fine-tuning阶段,BERT会根据预训练模型的参数初始化,然后在下游任务的标注数据进行fine-tuned。

BERT是一个多层双向的transformer encoder模型。是的,BERT中的transformer只有encoder,没有decoder!!!

BERT模型中使用的是WordPiece embeddings,最后一层隐藏层的向量会作为每个token的表示。另外,有3个特殊字符如下:

还需要说明的是,BERT模型中sentence并不是语义层面的句子,可以是连续的文本。sequence指的是token 序列,可以是单个sentence也可以是合在一起的 two sentences。

相比之前的预训练模型,BERT在预训练阶段做了两个无监督任务:MLM(masked LM)和next sentence prediction(NSP)。

通过源码能看到:

我没明白为什么传统模型无法双向训练,而用masked LM可以解决双向训练的问题:

某 文章 的解释是:

masked LM的做法:

在masked LM任务中只会预测masked token,其他token不做预测。

有一些任务比如问答(QA)和自然语言推理(NLI)都是对两句话关系的理解,但是语言模型无法捕捉这种信息。为了让训练的模型能获取句子之间的关系,在预训练的时候多加了一个二值化的NSP任务。具体做法:

对这部分我的疑问是:

原文中不理解的地方:
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
什么样的猫叫起司猫? 2021年春节后工地普遍是哪天开工? 美国大学介绍——印第安纳大学伯明顿分校 480-500分之间的大学有哪些 平安驾意险需要买两份保险吗? AI编译器技术剖析(一)-概述 AI编译器技术剖析(三)-树模型编译工具 Treelite 详解 研究性学习:人工智能产品的个人使用情况调研 全球变化中国现阶段水资源概况 我国水资源人均占有量现在只有 对一个已经发布的预训练模型继续用新的数据预训练会破坏权重吗 五四为什么作为青年节 做你想做的,我会是你的后盾 行至水穷处 坐看云起时 什么意思 写作文的英文怎么写呢 措词的造句措词的造句是什么 我国南北跨纬度,东西跨经度最多的省区是哪个? 乒乓拍该怎么保养? 要怎样才能更好的保养乒乓板怎样做才能更好的保养乒乓板 要怎样才能更好的保养乒乓板 试刊的造句试刊的造句是什么 尝试的造句尝试的造句是什么 解答的造句解答的造句是什么 好歹的网络解释好歹的网络解释是什么 好歹的解释好歹的解释是什么 好歹的意思好歹的意思是什么 好歹的近义词好歹的近义词是什么 懒散的近义词懒散的近义词是什么 好歹的国语词典好歹的国语词典是什么 懒散的反义词懒散的反义词是什么 deepfacelab预训练有好处吗 家具的造句家具的造句是什么 羊场镇的介绍 洛阳最大的羊场 怎么在电脑上玩PS版的射雕英雄传,或者是其他的游戏~~可以方法多点,让我选择下~~ 人如果不学,就不懂得礼仪,不能成才写句子 蒙箕的结构蒙箕的结构是什么 我有一和田籽料,元宝形状一面是白色一面是紫罗兰色,握在手里一会功夫便烫人,请问好不好。 17款gsx250和新款区别 新晋的成语新晋的成语是什么 江船与海船构造区别 用胪列造句(大约30个左右) 罗列的网络解释罗列的网络解释是什么 现在做什么小生意有前景? 为何有的翡翠绿不贵 为什么有的翡翠绿不贵 2009年杭州动漫节5月2日的活动内容 杭州滨江区浦沿路与东冠路的交叉口附近有没有健身房 破坏领主一周目通关游戏评价 恐怖黎明——心得技巧 氮气,氧气,二氧化碳,稀有气体,二氧化硫,二氧化氮分别的作用或危害,原因以及其他性质