问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

一分钟了解互联网数据挖掘流程

发布网友 发布时间:2022-04-26 23:42

我来回答

1个回答

热心网友 时间:2022-04-10 11:05

一分钟了解互联网数据挖掘流程

1、爬虫抓取网络数据 

真实的数据挖掘项目,一定是从获取数据开始的,除了通过一些渠道购买或者下载专业数据外,常常需要大家自己动手爬互联网数据,这个时候,爬虫就显得格外重要了。

Nutch爬虫的主要作用是从网络上抓取网页数据并建立索引。我们只需指定网站的顶级网址,如taobao.com,爬虫可以自动探测出页面内容里新的网址,从而进一步抓取链接网页数据。nutch支持把抓取的数据转化成文本,如(PDF、WORD、EXCEL、HTML、XML等形式)转换成纯文字字符。

Nutch与Hadoop集成,可以将下载的数据保存到hdfs,用于后续离线分析。使用步骤为:

向hdfs中存入待抓取的网站url

$ hadoop fs -put urldir urldir

注:

第一个urldir为本地文件夹,存放了url数据文件,每行一个url地址

第二个urldir为hdfs的存储路径。

启动nutch,在NUTCH_HONE目录下执行以下命令

$ bin/nutch crawlurldir –dir crawl -depth 3 –topN 10

命令成功执行后,会在hdfs中生成crawl目录。

2、MapRece预处理数据 

对于下载的原始文本文档,无法直接进行处理,需要对文本内容进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。

常用的文本预处理算法是TF-IDF,其主要思想是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来做分类。

输入原始文本内容:

Againit seems that cocoa delivered……

执行TF-IDF预处理:

hadoop jar $JAR SparseVectorsFromSequenceFiles……

输出文本向量:

9219:0.246 453:0.098 10322:0.21 11947:0.272 ……

每一列是词及其权重,使用冒号分隔,例如“9219:0.246”表示编号为9219的词,对应原始单词为“Again”,其权重值为0.246。

3、Mahout数据挖掘 

预处理后的数据就可以用来做数据挖掘。Mahout是一个很强大的数据挖掘工具,是分布式机器学习算法的集合,包括:协同过滤、分类、聚类等。

以LDA算法为例,它可以将文档集中每篇文档的主题按照概率分布的形式给出。它是一种无监督学习算法,在训练时不需要手工标注主题,需要的仅仅是指定主题的数量K。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。

输入预处理后的数据:

9219:0.246 453:0.098 ……

执行LDA挖掘算法:

mahout cvb –k 20……

输出挖掘结果:

topic1 {computer,technology,system,internet,machine}

topic2 {play,film,movie,star,director,proction,stage}

我们可以获知用户的偏好是哪些主题,这些主题是由一些关键词组成。

4、Sqoop导出到关系数据库 

在某些场景下,需要把数据挖掘的结果导出到关系数据库,用于及时响应外部应用查询。

sqoop是一个用来把hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL ,Oracle 等)中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导出到关系型数据库中:

sqoop export –connect jdbc:mysql://localhost:3306/zxtest –username root–password root –table result_test –export-dir /user/mr/lda/out

export操作实现把hdfs目录/user/mr/lda/out下数据导出到mysql的result_test表。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
...没有一些能够尝试的办法,住的别墅,接管口在地下埋着,急!!!_百度知... 我家农村住宅的西北角被人埋了四面镜子和十个镜子,我家这几年母亲老 不小心把美服LOL转到大洋洲了 怎么转回来 柚子皮别丢,放水里煮一煮,三个作用厉害了,早知道就不丢了 白醋泡柚子皮真厉害了,我也是刚知道,看完赶紧提醒家人,真实用 英雄联盟欧服的水平怎么样?欧服它有几个区呢?他和韩服国服相比的话... 英雄联盟欧服账号被暂封要怎么办 因为卡有点问题 充的钱要先还回去... 我打开欧服的英雄联盟的时候出现一个这个东西,求助啊。。。 英雄联盟美服和欧服一样么,怎么我进美服官网下和欧服官网下中文翻译都是... 0.18乘以8.45的验算是多少? 学习数据挖掘以后就业方向是什么? 怎么打开新商盟密码锁 订烟的微商盟服务平台忘记密码怎么办? 烟草密码锁了+怎么在QQ邮箱找回 订烟密码忘了怎么找回? 订烟账户被锁定怎么办? 你好,订烟账户密码输入错误,被锁定,需要多久自动解锁? 中国古代儒家、道家、墨家、法家都有哪些代表人物? 墨家代表人物墨子名什么? 墨家代表人物? 墨家的代表人物是不是墨子? 墨子是什么时期?什么家的代表人, 儒家,道家,阴阳家,法家,名家,墨家,纵横家,杂家,农家,小说家各的代表人是谁? 试述战国时期儒家、法家、道家、墨家的代表人物及主要思想 古代“天下第一奇毒”鹤顶红究竟是什么? 鹤顶红名字得来是因为它生的很像仙鹤吗 有一种很毒的毒药为什么要叫鹤顶红? 鹤顶红的历史来由 鹤顶红跟丹顶鹤有关系吗,为什么会叫鹤顶红? 古代修建长城时,为什么要用到鹤顶红呢? 什么是数据挖掘?从事相关的工作有什么要求? 什么叫数据挖掘、神经网络 数据分析师和数据挖掘师哪个前景好?工资高?是否挖掘师能代替分析师? 与互联网相关的职业有哪些? 国内基于数据挖掘技术的互联网应用有哪些呢? 怎么卖Q币 在哪售Q币? q币!!如何出售 赛鱼Q币交易平台是真是假? Q币怎么卖出去呢? q币可以随便买卖吗? 充的q币可以转让卖吗 闲鱼q币如何交易 在闲鱼怎么卖q币 Q币可以出售给个人吗及Q币怎样寄售才安全 怎么买Q币? 远看山有色,近听水无声.春去花还在,人来鸟不惊.出自哪首诗 远看山有色近听水无声春去花还在是什么诗 春去花还在的下一句诗词是什么 远看山有色,近听水无声。春去花还在,人来鸟不惊。出自哪首诗