问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

如何通过词向量技术来计算2个文档的相似度?

发布网友 发布时间:2022-04-20 03:57

我来回答

3个回答

热心网友 时间:2022-04-12 16:00

我正好是做记录文档匹配的,提供一个最简单的思路吧,计算两个向量的余弦或者jaccard相似度。即是比较两个向量相同的部分与总数之比,计算两个向量的编辑距离jaro距离或者仿射距离即是一个向量转换为另一个向量所需的最小插入删除更新等编辑操作次数,算出相似度之后,可以直接根据相似度判断是否相似,也可以利用knn分类器等分类方法判断相似与否,用deeplearning的话:短文本:拿word2vec开始,然后上面套CNN(如果n-gram更重要),或者LSTM做短文本的embedding,然后算两个文档在embeddingspace里的相似度。或者拿李航老师的Arc-II直接学word2vec之后的matching。

热心网友 时间:2022-04-12 17:18

先不论这样定义的距离是否满足距离的性质(比如对称性),我们考虑这样的情况:文档1中每个词都跟“音乐”密切相关;文档2中只有一个词跟“音乐”密切相关,其余词都跟“音乐”完全无关;文档3中有一个词跟“音乐”密切相关,其他词都跟“音乐”有点关系但关联性不大。我们希望有,但只考虑匹配词对之间的距离和的话无法做到这一点,因为文档1中的所有词在文档2和文档3中都会被匹配到那个跟“音乐”密切相关的词上去,从而可能导致。所以我们希望通过某种约束,使得文档1中的每个词都会以不同权重被“强制性”地匹配到另一个文档的所有词上去。在上面关于“音乐”的例子里,由于文档2或3的所有词都会被匹配到,但文档3的词跟“音乐”更相关,我们便有希望得到。我们先把文档看成词的一个分布(比如使用归一化的词频特征)。首先考虑如何令“文档1中的每个词以不同权重匹配到另一个文档的所有词上”。如下图,很简单,我们允许“部分匹配”就可以了。这里我们把匹配看成是把文档1中的词“移动”到文档2中的词的一个过程,移动代价是两个词向量的Euclidean距离。比如说“Obama”在文档1中的权重(概率)是0.5,如果我把0.4移动到“President”、0.05移动到“greets”……等等,移动代价就是这里应该有个约束:把“Obama”分到文档2中词的权重的和应该等于它在文档1中的权重。

热心网友 时间:2022-04-12 18:53

首先,如果不局限于NN的方法,可以用BOW+tf-idf+LSI/LDA的体系搞定,也就是俗称的01或onehotrepresentation。其次,如果楼主指定了必须用流行的NN,俗称word-embedding的方法,当然首推word2vec(虽然不算是DNN)。然后得到了word2vec的词向量后,可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然,加权之前一般应该先干掉stopword,词聚类处理一下。还有,doc2vec中的paragraphvector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《DistributedRepresentationsofSentencesandDocuments》(ICML2014)。还有一种根据句法树加权的方式,是ICML2011提出的,见论文《ParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworks》,后续也有多个改编的版本。当然,得到词向量的方式不局限于word2vec,RNNLM和glove也能得到传说中高质量的词向量。ICML2015的论文《FromWordEmbeddingsToDocumentDistances,Kusner,WashingtonUniversity》新提出一种计算doc相似度的方式,大致思路是将词之间的余弦距离作为grounddistance,词频作为权重,在权重的约束条件下,求WMD的线性规划最优解。最后,kaggle101中的一个word2vec题目的tutorial里作者如是说:他试了一下简单加权和各种加权,不管如何处理,效果还不如01,归其原因作者认为加权的方式丢失了最重要的句子结构信息(也可以说是词序信息),而doc2vec的方法则保存了这种信息。在刚刚结束的ACL2015上,似乎很多人提到了glove的方法,其思想是挖掘词共现信息的内在含义,据说是基于全局统计的方法(LSI为代表)与基于局部预测的方法(word2vec为代表)的折衷,而且输出的词向量在词聚类任务上干掉了word2vec的结果。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
长沙到西昌。坐火车先从长沙到成都、成都东,再到西昌,哪个方便一些 S先生与P先生谜题的题面 为什么首都设在襄阳 改姓可以不随父母性吗 韩艺瑟怎么改姓? 纸、墨、笔、砚是中国传统的文房四宝,墨的使用最早在 [ ] A.商代后期... 想问下创维光伏E企赢模式有哪些优势,到底值不值得投资啊?有没有合作... 太平洋太享e保百万医疗值得入手吗?每年花多少钱? 爱e满分适合哪些人买?注意哪些问题? 太平洋太享e保百万医疗适合哪些人买?价格多少? 五人开黑骚气游戏名字怎么取? 如何用python计算文本的相似度 三人开黑骚气的名字有哪些? 请问下面相似度计算公式代表什么意思,他是如何计... 王者荣耀两个基友取什么名字好,要搞笑的 如何计算多个文本的相似度java程序,利用向量 王者荣耀霸气双人名字基友 如何用wordnet计算 文本相似度 算法实现 如何计算两个文档的相似度 如何计算文档相似性 怎样用python或者是java计算文本相似度 如何计算两个文本内容的相似度? 双语文本相似度计算的工具有哪些 笔记本电脑好几天没用,今天用的时候开不了机,插上电源线,电源指示灯也不亮,这是什么原因?能修吗?... 10篇100~200字的暑假日记 求16篇50-100字暑假日记 中学生暑假周记,100字。谁能给我? 小学生暑假日记100字 (五则) 暑假日记100字8篇 中学生暑假100字日记 求3个开黑的游戏名字 8字以内就好了 一定要骚 3个... 有人用php实现文本相似度算法吗 求lol三人开黑名字 骚气的那种 Excel文本相似度 三人开黑独特好听的名字有哪些? 如何用深度学习更好的的解一个短文本相似度计算问题 求两个LOL的开黑名字,不要非主流的,古风一点的,... lol开黑名字4个 中文短句相似度匹配方法? 怎样计算两篇文档的相似度 小米移动电源2代和小米移动电源1有什么区别 小米移动电源有哪些型号? 小米移动电源说明书 小米的移动电源怎么样?好用吗?质量怎么样? 小米移动电源第一次怎么充电 小米移动电源共有哪几款? 小米移动电源第一次充电要充多久? 小米移动电源电源开关键有什么用? 小米移动电源无法为手机充电 2×DC 5.1V/2.1A MAX3.6A什么意思,只给一个手机充...