问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

数据处理的常用方式

发布网友 发布时间:2022-03-23 16:34

我来回答

1个回答

热心网友 时间:2022-03-23 18:04

数据分析与处理方法:
采集
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的大量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些大量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
北京注册成立一个公司需要多少钱 北京公司都是什么 手机导航地图语音怎么下载 如何分别真金和仿金首饰 怎样区分真金和仿金首饰呢 小学生新年晚会主持人的串词!!(不要太多)急 大大后天就需要了!!!_百度... 周年晚会策划公司 奥格瑞玛传送门大厅在哪 奥格瑞玛传送门大厅怎么走 锻炼颈椎的几个动作 水多久能结冰 冰能在多长时间内形成 数据预处理在什么情况下采取哪种方法最合适? 有哪些数据预处理的方法? 怎么把照片弄成200K以下啊!传上去老说图片不能大于200K? 怎么把照片压缩到200K以内 怎么用手机拍出小于200k的照片 手机如何让照片小于200 kb 照片怎么才能不超过200kb? windows7电脑内存不足怎么办? 电脑硬盘储存空间不足怎么办 电脑内存不足要怎样清理或释放? 电脑内存总是不足,该怎么办? 内存不足怎么清理 电脑老是显示内存空间不足,怎么办 笔记本电脑空间不足怎么清理 怎么清理电脑硬盘内存不足 电脑提示内存不足,该怎么办? 微信名字备注改了别人微信可以看到吗? 微信群备注修改了别人会看到吗 微信群给了一个人很特殊的备注,邀请他进群他会看见我给他的备注吗? 是不是自己备注的然后两个人在群里面备注会显示? 数据处理与分析的步骤是怎么样 数据预处理的原则 如何对微信数据进行预处理 手机的未知来源怎么打开 oppo手机未知来源在哪里设置 手机设置的未知来源在哪 苹果iPhone+Xʀ设置允许未知来源 华为手机应用未知来源 手机设置的未知来源在哪?谢谢。 华为允许未知来源设置在哪里 oppo手机设置中未知来源在哪,找不到 华为怎么安装未知来源应用 怎么设置手机安装未知来源软件 安卓系统手机怎么开启允许安装未知来源软件功能 vivo安装未知来源怎么设置 oppo手机来微信不显示在屏幕上怎么弄 怎么能让微信消息不显示在屏幕上 来了微信视频不想让他显示在桌面咋弄 微信来时不显示内容怎么弄 oppo手机微信信息怎么不显示屏幕上?