大数据究竟是什么?大数据有哪些技术呢?
原创

大数据究竟是什么?大数据有哪些技术呢?

好文
试试语音读文章

热门回答:

近几年。大数据的概念逐渐深入人心。大数据的趋势越来越火爆。但是。大数据到底是个啥?怎么样才能玩好大数据呢?

大数据的基本含义就是海量数据。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

数字经济的要素之一就是大数据资源。现在大家聊得最多的大数据是基于已经存在的大数据的应用开发。

如今。大数据技术已应用在各行各业。小麦举个例子。讲述一下最贴近我们生活的民生服务是如何运用大数据。

最近电视新闻提及到的“一网统管”精准救助场景。传统的救助方式往往通过困难家庭申请、审核、审批等多项程序。遇到需要跨部门、跨层级、跨街区协调解决的个案。还需要召开各级协调会的形式协商解决。

现在通过“精准救助”的方式。民政部门在平时的摸排中了解情况。将相关信息录入到“一网统管”数据中心。再根据数据模型识别出需要协助的家庭。随后形成走访工单派发给社工对其进行帮扶。从而提升救助的效率。做到雪中送炭。

在数字化政府改造之前。每个部门只掌握各自分管的数据。形成“信息孤岛”;有了大数据分析平台后。所有的数据信息。便打通了“任督二脉”。

政府可以充分利用大数据技术打造“一网统管”精准救助场景。极大提升了社会救助的科学性和精准性。让城市变得更加温暖。

其他观点:

这是我通常与想要了解大数据的人进行对话:

问:什么是大数据?

答:大数据是描述庞大数据的术语。

问:现在。大数据有多大?

答:如此庞大。以至于无法用常规工具处理?

问:通常的工具是什么意思?

答:普通文件系统。数据库等工具。

所有这些大数据工具都有一个共同的特性:分布式计算。

因此。大数据是一个通常只能通过分布式的工具才能解决的问题。我知道这些天。每个人都在尝试将他们的BI(商业情报)工具描绘成大数据工具。但不要被喧闹声所欺骗。

问:哪些典型的大数据问题?

答:请考虑以下几点:

1。如何建立存储和保存500 TB电影/视频/文字的存储?

2。一台机器实际读取500 TB会花费多少时间?

3。如何建立可以存储数百万列和数十亿行数据而不会像乌龟一样慢的数据存储?

4。如何提供每秒数百万的读写?

5。如何解决真正复杂的问题?还记得时间的复杂性吗?想象一下。电子邮件哦公司。必须每秒钟来自不同用户30GB 电子邮件自动分类为5个类别(比如是否垃圾邮件)。

或判断数百万个网站的内容。您必须准备网站名称的层次树。以使两个同级彼此非常相似。这种问题称为分类。

它们比通常的数据排序更为复杂。

随着数据的进一步增长。这些问题变得非常不可能解决。

解决此类问题需要巨大的计算能力-就RAM。CPU。磁盘读取速度而言。

问:大数据有什么用?

答:如果规模巨大。几乎每个业务计算问题都可以转换为大数据问题。

其他观点:

就以问答为例说说大数据的故事。以下说的数字都不是真实的。都是我的假设。

比如每天都有1亿的用户在问答上回答问题或者阅读问答。

每天产生的内容

假设平均有1000万的用户每天回答一个问题。一个问题平均有1000的字, 平均一个汉字占2个字节byte。三张图片, 平均一帐图片300KB。那么一天的数据量就是:

文字总量:10,000,000 * 1,000 * 2 B = 20 GB

图片总量: 10,000,000 * 3 * 300KB = 9 TB

为了收集用户行为。所有的进出问答页面的用户。点击。查询。停留。点赞。转发。收藏都会产生一条记录存储下来。这个量级更大。

所以粗略估计一天20TB的数据量. 一般的PC电脑配置大概1TB。一天就需要20台PC的存储。

如果一个月的。一年的数据可以算一下有多少。传统的数据库系统在量上就很难做到。

另外这些数据都是文档类型的数据。需要各种不同的存储系统支持。比如NoSQL数据库。

需要分布式数据存储。比如Hadoop的HDFS。

数据的流动

上述1000万个答案。会有1亿的人阅读。提供服务的系统成百上千。这些数据需要在网上各个系统间来回传播。需要消息系统比如Kafka。

在线用户量

同时在线的用户量在高峰时可能达到几千万。如此高的访问量需要数前台服务器同时提供一致的服务。为了给用户提供秒级的服务体现。需要加缓存系统比如redis。

机器学习。智能推荐

所有的内容包括图片都会还用来机器学习的分析。从而得到每个用户的喜好。给用户推荐合适的内容和广告。还有如此大量的数据。必须实时的分析。审核。审核通过才能发布。人工审核肯定做不到。必须利用机器来智能分析。需要模式识别。机器学习。深度学习。实时计算需要Spark。Flink等流式计算技术。

服务器的管理

几千台服务器。协同工作。网络和硬件会经常出问题。这么多的资源能够得到有效利用需要利用云计算技术。K8S等容器管理工具。还需要分布式系统的可靠性和容灾技术。

本人。@小马过河Vizit。专注于分布式系统原理和实践分享。希望利用动画生动而又准确的演示抽象的原理。欢迎关注。

关于我的名字。小马过河Vizit。意为凡事像小马过河一样。需要自己亲自尝试。探索才能获得乐趣和新知。Vizit是指Visualize it的缩写。一图胜千言。希望可以利用动画来可视化一些抽象的原理。

您还感兴趣的文章推荐

以上就是由互联网推广工程师 网创网 整理编辑的,如果觉得有帮助欢迎收藏转发~

分享到 :
相关推荐

发表评论

您的电子邮箱地址不会被公开。

评论(2)

  • 陌清茗 永久VIP 2022年12月27日 14:13:41

    数据,用户,工具,分布式,精准,系统,机器,在线,的人,都是

  • 归属感 永久VIP 2022年12月27日 14:13:41

    没想到大家都对大数据究竟是什么?大数据有哪些技术呢?感兴趣,不过这这篇解答确实也是太好了

  • 眼泪、说拜拜 永久VIP 2022年12月27日 14:13:41

    近几年。大数据的概念逐渐深入人心。大数据的趋势越来越火爆。但是。大数据到底是个啥?怎么样才能玩好大数据呢?大数据的基本