问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

python爬取的数据如何去重?说一下具体的算法依据

发布网友 发布时间:2022-04-21 23:19

我来回答

1个回答

热心网友 时间:2023-10-23 15:51

       前两天处理数据的时候,需要得到两个数据的交集数据,所以要去除数据中非重复部分,只保留数据中的重复部分。

       网上看了一下大家的教程,大部分都是教去除重复行,很少有说到仅保留重复行的。所以在这里用drop_plicates这个去重函数来实现这个功能。

drop_plicates函数介绍 :

data.drop_plicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

#subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。

默认值为subset=None表示考虑所有列。

keep='first’表示保留第一次出现的重复行,是默认值。

keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

要用函数取得数据集data中的重复列,分三个步骤 :

(提前导入pandas模块)

data0_1 = data.drop_plicates() #保留第一个重复行

data0_2 = data.drop_plicates(keep=False) #去除所有重复行

data0_3=pd.concat([data0_1,data0_2]).drop_plicates(keep=False)

#合并起来再去重,只剩下真的重复行。

举例:data中wangwu行和tony行重复,需要把它们两行取出。

第一步:#保留第一个重复行

第二步:#去除所有重复行

第三步:#合并起来再去重

通过以上步骤实现取出数据中的重复行。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
纯种萨摩和不纯的萨摩的区别 不是纯种萨摩,长大成型后和纯种萨摩外表一样吗 学播音主持和配音哪个更赚钱,各有各的长处 学播音真的能改变声音吗,会让自己的普通话更加标准 学习播音和配音的作用,可以提升自信和气质 普通人学配音有没有用,有兴趣则有用 什么是永诚财产保险股份有限公司 win10电脑升级不了ie11win10怎么升级ie11 电脑硬件保修哪些电脑硬件保修包括什么 电脑固态硬盘质保几年一般的电脑保修时间是多久 黄瓜炒火腿肠的步骤 如何应对网站反爬虫策略?如何高效地爬大量数据 黄瓜炒火腿肠的关键要领是什么 请问黄瓜炒火腿是先抄黄瓜还是先炒火腿? 黄瓜配火腿怎么做好吃 黄瓜炒火腿肠的做法? 为什么佛山南海大沥镇办不了食品生产许可证? 如何用python进行大数据挖掘和分析 士豆炒鸡与黄瓜炒火腿一起吃吗 黄瓜,玉米粒,火腿肠如何炒 如何系统的学习从网上爬取数据,文本,以及分析 黄瓜炒火腿窍门 怎样写菜园的作文 黄瓜炒火腿肠的家常做法 python如何解析爬取的数据? 描写菜园的拟人句 菜园的好词好句好段 老黄瓜炒火腿的做法,老黄瓜炒火腿怎么做好吃 大数据爬取分析数据,需要搭建什么样的环境和掌握... 人工智能中问题求解的方法是什么 小黄瓜清炒火腿肠怎么做好吃呢? 黄瓜炒火腿肠怎么做才好吃 网络爬虫中爬取数据怎么将概览和细览联系起来 智商低的人会知道自己智商低吗? 爬虫可以为我们做什么,可以做数据分析房价行情吗 寻找菜谱 为什么大多数智商低的人不会承认自己智商低 玉米,黄瓜丁,胡萝卜丁,还有火腿肠合炒的有什么好听... 智商低的人承认自己智商低吗? 菜园种植的蔬菜总会死苗,应该怎样有效改善? 我感觉自己智商低,弱智、傻子知道自己傻吗?还是... 寓意很好的菜园名有哪些? 感觉自己智商低,智商低的人知道自己智商低吗? 一个智商低的人他自己知道自己智商低所以他觉得在... 描写秋天菜园的景色 智商低的人有自我觉知和认知能力吗? 校中菜园的含义是什么 描写菜园的四字词语有哪些? 智商低的人的表现 描写乡村菜园的句子