问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

网络挖掘必备技能 | 获取社交网络数据的方式汇总

发布网友 发布时间:2024-09-26 21:04

我来回答

1个回答

热心网友 时间:2024-10-04 05:23

网络型数据挖掘是一项主流的、重要的数据挖掘技术,常见的如社交网络、购物网络、金融网络等网络类型在生活中无处不在,做好网络挖掘可在用户画像、产品推荐、流言信息传播、金融风险评估、城市交通优化方面产生极大作用。

获取的数据“好坏”很大程度决定了数据分析/数据挖掘研究的效果,尤其是社交网络数据,收藏一些好的数据集尤为重要,不一定多但一定要优质。

一、开放数据集

主要推荐: snap网站

*斯坦福教授创立的网络分析实验室建立的网站,其公布了研究过程中非常多的数据集。

其中推荐:social networks里面的soc-Pokec 数据集。

它是一个全量的捷克斯洛伐克的一个社交网站数据集,

不仅包含了社交网站中点和边的数据;

同时包含了user profiledata(即每个用户具备的属性),如性别、注册时间、年龄、工作领域、婚姻/孩子状态……,其丰富程度几乎是公开数据集中能够下载到的最好之一了,如果你要做跟用户属性相关的分析研究或算法实验,这是个很好的选择;

与此同时,它还包含了整个网站上所有用户的关系,如果凭自己抓取,那只是网站上的部分采样,而这个稳定的全量数据则代表了整个网络的特征,对我们的分析解释和逻辑思维的严谨性是有好处的。

另一个推荐的是:location-based online social networks,其中有两个叫loc-Gowalla、loc-Brightkite 数据集。

这类的社交网站主要是由人的checking-in(签到)组成,虽然这类网站已经没落了,但是保留下来的数据依然能够帮助我们分析用户线上和线下的行为联系,数据集中除了点和边的数据,还有用户的好友关系、地理空间等数据。

其他开放数据集站点:UCI、CAWDAD(它们不只有社交网络数据集)

当然,竞赛网站中公开的数据集也可以时不时去关注下载。

二、网站爬虫

1.基于网站API的爬虫

2.基于网页的爬取

实例:豆瓣爬取好友信息

Step1:找到代表好友关系的网址(要爬取的信息所在网址)

Step2:找到目标用户的id,比如上图中目标用户“关注豆瓣同城的人”在网址中的ID为“doubanlocation”,由此,切换网址中“people/”之后的ID就可以抓取不同人的好友。

Step3:使用beautifulsoup来抓取数据的具体操作

1)载入需要的包

2)利用cookie模拟登陆,并抓取网页信息

步骤:浏览器工具栏——更多工具——开发者工具——network——刷新用户信息(contacts)网页——headers——requestheaders——cookie复制

3)抓取用户id信息

以上,就完成了用户id信息的抓取任务。

当然,这也只是社交网络挖掘的第一步,当数据获取到足够丰富的时候,就可以进一步探究社交网络挖掘的算法,如好友推荐、属性推理、组群挖掘、消息传播等等,有兴趣的朋友可以关注我们的公众号(datacastle2016),获取更多数据分析干货。

热心网友 时间:2024-10-04 05:20

网络型数据挖掘是一项主流的、重要的数据挖掘技术,常见的如社交网络、购物网络、金融网络等网络类型在生活中无处不在,做好网络挖掘可在用户画像、产品推荐、流言信息传播、金融风险评估、城市交通优化方面产生极大作用。

获取的数据“好坏”很大程度决定了数据分析/数据挖掘研究的效果,尤其是社交网络数据,收藏一些好的数据集尤为重要,不一定多但一定要优质。

一、开放数据集

主要推荐: snap网站

*斯坦福教授创立的网络分析实验室建立的网站,其公布了研究过程中非常多的数据集。

其中推荐:social networks里面的soc-Pokec 数据集。

它是一个全量的捷克斯洛伐克的一个社交网站数据集,

不仅包含了社交网站中点和边的数据;

同时包含了user profiledata(即每个用户具备的属性),如性别、注册时间、年龄、工作领域、婚姻/孩子状态……,其丰富程度几乎是公开数据集中能够下载到的最好之一了,如果你要做跟用户属性相关的分析研究或算法实验,这是个很好的选择;

与此同时,它还包含了整个网站上所有用户的关系,如果凭自己抓取,那只是网站上的部分采样,而这个稳定的全量数据则代表了整个网络的特征,对我们的分析解释和逻辑思维的严谨性是有好处的。

另一个推荐的是:location-based online social networks,其中有两个叫loc-Gowalla、loc-Brightkite 数据集。

这类的社交网站主要是由人的checking-in(签到)组成,虽然这类网站已经没落了,但是保留下来的数据依然能够帮助我们分析用户线上和线下的行为联系,数据集中除了点和边的数据,还有用户的好友关系、地理空间等数据。

其他开放数据集站点:UCI、CAWDAD(它们不只有社交网络数据集)

当然,竞赛网站中公开的数据集也可以时不时去关注下载。

二、网站爬虫

1.基于网站API的爬虫

2.基于网页的爬取

实例:豆瓣爬取好友信息

Step1:找到代表好友关系的网址(要爬取的信息所在网址)

Step2:找到目标用户的id,比如上图中目标用户“关注豆瓣同城的人”在网址中的ID为“doubanlocation”,由此,切换网址中“people/”之后的ID就可以抓取不同人的好友。

Step3:使用beautifulsoup来抓取数据的具体操作

1)载入需要的包

2)利用cookie模拟登陆,并抓取网页信息

步骤:浏览器工具栏——更多工具——开发者工具——network——刷新用户信息(contacts)网页——headers——requestheaders——cookie复制

3)抓取用户id信息

以上,就完成了用户id信息的抓取任务。

当然,这也只是社交网络挖掘的第一步,当数据获取到足够丰富的时候,就可以进一步探究社交网络挖掘的算法,如好友推荐、属性推理、组群挖掘、消息传播等等,有兴趣的朋友可以关注我们的公众号(datacastle2016),获取更多数据分析干货。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
成都世唯科技有限公司怎么样 还能有什么方式挽回已失去的女友吗? 我该如何挽回她? ...男方把我告上法院,差点打起官司……还有挽回的可能吗? ...对象有新对象心里有点难受…自己作没的!错过了!这种心情该怎么... 最美护士的短句子 祝护士工作顺利的句子 什么叫免疫治疗 2023年3月28日安入户门好不好-3月28日安入户门有哪些要注意的 玄关风水禁忌有哪些?这6个风水禁忌早知道更好! oppo手机怎么搬家到vivo手机上? 数据挖掘的算法主要 桃胶皂角米要炖多久 无锡华光锅炉厂和杭州锅炉集团哪个好一点?哪个比较适合应届本科生去... 听说几个品牌共用一个售后安装团队,你们林内的热水器是海尔安装的... 我家在网上买了林内热水器,今天安装的时候安装师傅说我家房子面积太小不... 甲乙两杯共有果汁500毫升,从甲杯向乙杯倒入50毫升后,两杯果汁同样多 塑料加工材料有哪些 因为某种原因,念地藏经一部两天才念完有效果吗? 早泄的害处有哪些 早泄不治的危害有哪些 早泄没有及时治疗对男人有哪些危害 路边侧方位停车怎么停? 侧方位停车最简单又准的方法侧方停车怎么看点准确 路边怎么停车驾驶技巧:如何安全停车? CorelDRAWX43264位官方中文版CorelDRAWX43264位官方中文版功能简介_百 ... 嫦娥五号在哪里发射的 唱歌好听简单的技巧 社交软件哪些功能是你不能接受的? 二本abc类是什么意思 数据挖掘有哪些方向 社交网络(SNS)技术基础与开发案例目录 已删除的照片怎么恢复?三种方法教你解决 加拿大fido手机用中国卡 男人肾虚吃什么药啊 离婚案件开庭时法官会问什么?离婚案件庭审流程 料理次元食灵培养推荐介绍_料理次元食灵培养推荐是什么 民事离婚审理庭中的庭审录像视频法院会保留多久?请教诸位告诉我好... 料理次元中华大陆04困难怎么过 中华大陆04困难三星S通关攻略 现代ix25和ix35哪个好 对比分析现代品牌SUV的性能和价格 现代ix25和ix35区别是什么? 极速洞察推出全新解决方案,多渠道数据+AI赋能洞察工具助力产品创新... 我的手和脚上的脚气一样,非常的痒难受又有水泡,还会掉皮用手抓的时候... 我的脚老脱皮,还起水泡,有时很痒,一抓就掉皮,右手也这样,有时两只手都... ?做电商必须知道的四个是什么做电商必须具备什么 你好,我的脚一到晚上睡觉的时就会很痒又起泡是怎么回是 我的脚到了晚上9点多后就发痒,痒时就有手指大般的块,不痒时就跟平时一... excel中怎么只删除单元格的内容,而把公式保留? 玩cf卡的进不去为什么? 玩cf卡电脑什么的都没问题就是不知道为什么卡高手加q522511738