大数据起源,给你解析到底什么是大数据

发布网友发布时间：2022-04-03 03:41

共2个回答

懂视网时间：2022-04-03 08:03

大数据概念最初起源于美国，是由思科、威睿、甲骨文、IBM 等公司倡议发展起来的。大约从2009年始，“大数据”成为互联网信息技术行业的流行词汇。

　　大数据（big data，mega data）或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径，而采用所有数据进行分析处理。大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值密度）、Veracity（真实性）。

　　“大数据”是指以多元形式，许多来源搜集而来的庞大数据组，往往具有实时性。在企业对企业销售的情况下，这些数据可能得自社交网络、电子商务网站、顾客来访纪录，还有许多其他来源。这些数据，并非公司顾客关系管理数据库的常态数据组。从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式计算架构。它的特色在于对海量数据的挖掘，但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。

热心网友时间：2022-04-03 05:11

大数据，英文名big data。因为传播已经成为习惯，我们并没有过多的去思考为什么用big data去描述，但是现在我们仔细回味一下，会发现大数据这个大为什么不用large为什么不用海量vast呢？归根结底我们可能就需要从语法上，来分析一下，它们三个之间的区别。big形容大小。更多的时候，是一种比较行为上的大，是种相对来说的感觉，而large和vast更多的时候形容的是的是一种形体上的巨大。
那么现在来推敲一下big data这个词，大数据这个大其实是一种相对的说法是相对于传统的数据体量来说的，过去任何时候的数据相对于现在来说都显得太过于渺小，而现在我们所说的大数据是一种量变最后达到了质变的概念。
数据这个词最早在媒体上风靡应该是2007年左右。往上追溯应该就是05年谷歌参加有美国官方举办的一个机器翻译大赛，最终由于使用了海量的相关数据而夺得第一，在那之后大数据这个概念渐渐的被业内人士所传播。那么到底什么是大数据呢？
大数据顾名思义，最表象的特征就是数据量够大。但是仅仅数据量够大，并不能构成大数据整体的含义。如果是海量杂乱无章，互之间没有关联的数据，即便再怎么定义，它也算不上是大数据。就譬如一个人体内的基因图谱，详细的基因图谱数据如果记录出来是一个很大体量的，但是没有意义。
大数据而且还有个概念，那就是*度。在十年前，如果说国内哪一家公司最有资格说大数据的，那无疑是百度了。作为一个独占13亿用户专属的搜索公司来说，百度对于用户画像的记录，无疑是*的。百度搜索，至今记录了无数用户每天在互联网上搜索的问题，或者说知识。在时间维度上用户对某些词汇搜索的频次高低这些都是数据。它可以通过对注册用户的甄别就可以知道搜索这个词汇或者是这个问题的用户是男生还是女生？年龄分布是是小孩、青年抑或是一个中年大叔？再到后来个人电脑开始普及，通过记录ip等信息，根据ip搜索的百度的问题的分类，可以判断中国各个区域，是南方富裕一点，还是北方富裕点？是江苏人更爱吃，还是闽南人更喜欢谈论吃？百度完全可以根据自己的数据生成得到国内各种关于此类的数据，普查之后所能得到的答案这就是因为百度所具有的数据是一个*度的数据。他的数据收集过程，是一个长期的持续性的工作。
除了百度之外，腾讯的qq确实每年都会有一个关于qq的城市报告。它会根据qq的用户数据，甚至于至于活跃地点。在一个大的范围内青年QQ用户的占比，最终可以得到中国城市年轻度排行榜。可以根据这些数据判断，哪一个城市是，年轻人毕业之后最愿意去的。可以判断哪一个城市的，年轻人毕业之后，是回归率最高的。也可以判断哪一个城市的人才流失率更低，更容易留住外来人才。这些都是大数据*度的应用。
大数据还有一个非常重要的特点，那就是全面性。经常在某些大型活动之前我们都会遇到。某些公司对于这件事情，会做出预测。然后最终的结果让我们大失所望。预测无疑是需要基于数据基础的预测，如果这个数据不够全面的话，最终的预测结果肯定相差甚大。
关于数据全面性有一个最经典的案例这是12年美国大选大选事件。一个名叫斯威尔的年轻人，利用大数据预测。成功预测出了51个州的选举果，要知道这在之前是从来没有发生过的事情。美国大选在之前就一直有专业的预测机构做预测，但是就连这种长期做数据，分析的公司都从来没有如此成功的预测过。那是因为斯威尔将网上所有关于选举的数据，包括新闻稿，以及*和*上面人们关于选举的言论，所有的数据都做了甄选处理。这份数据反映的是网民全面几乎没有遗漏的想法，最终得到了某种程度上来说，比较具有完备性的数据，所以能够如此成功的预测13年美国大选的结果。