大数据的框架主要学习和使用什么呢？

试试语音读文章

热门回答：

你说的应该是大数据平台中的主流框架。我列举一下：

（一）Hadoop生态圈

HDFS：分布式文件系统。解决大数据的存储

Yarn（MapReduce）：分布式计算框架。解决大数据的计算

Hive：Hadoop中的数据分析引擎。支持SQL

HBase：基于HDFS的NoSQL数据库

ZooKeeper：分布式协调服务。可以用于实现HA（高可用架构）

其他

（二）Spark生态圈

Spark Core：Spark的核心。用于离线计算

Spark SQL：Spark的数据分析引擎。支持SQL语句

Spark Streaming：Spark的流式计算引擎。但本质依然是离线计算

MLlib：机器学习框架

（三）Flink生态圈

Flink DataSet：Flink批处理（离线计算）API

Flink DataStream：Flink流处理（实时计算）API

Flink Table&SQL：Flink的数据分析引擎。支持SQL语句

MLlib：机器学习框架

其他观点：

什么是大数据？

大数据（big data）。IT行业术语。是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径。而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

大数据开发学习路线：

第一阶段：Hadoop生态架构技术1、语言基础Java：多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以。不需要深入掌握。Linux：系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。Python：基础语法。数据结构。函数。条件判断。循环等基础知识。2、环境准备这里介绍在windows电脑搭建完全分布式。1主2从。VMware虚拟机、Linux系统（Centos6.5）、Hadoop安装包。这里准备好Hadoop完全分布式集群环境。3、MapReduceMapReduce分布式离线计算框架。是Hadoop核心编程模型。4、HDFS1.0/2.0HDFS能提供高吞吐量的数据访问。适合大规模数据集上的应用。5、Yarn（Hadoop2.0）Yarn是一个资源调度平台。主要负责给任务分配资源。6、HiveHive是一个数据仓库。所有的数据都是存储在HDFS上的。使用Hive主要是写Hql。7、SparkSpark 是专为大规模数据处理而设计的快速通用的计算引擎。8、SparkStreamingSpark Streaming是实时处理框架。数据是一批一批的处理。9、SparkHiveSpark作为Hive的计算引擎。将Hive的查询作为Spark的任务提交到Spark集群上进行计算。可以提高Hive查询的性能。10、StormStorm是一个实时计算框架。Storm是对实时新增的每一条数据进行处理。是一条一条的处理。可以保证数据处理的时效性。11、ZookeeperZookeeper是很多大数据框架的基础。是集群的管理者。12、HbaseHbase是一个Nosql数据库。是高可靠、面向列的、可伸缩的、分布式的数据库。13、Kafkakafka是一个消息中间件。作为一个中间缓冲层。14、FlumeFlume常见的就是采集应用产生的日志文件中的数据。一般有两个流程。一个是Flume采集数据存储到Kafka中。方便Storm或者SparkStreaming进行实时处理。另一个流程是Flume采集的数据存储到HDFS上。为了后期使用hadoop或者spark进行离线处理。

第二阶段：数据挖掘算法1、中文分词开源分词库的离线和在线应用2、自然语言处理文本相关性算法3、推荐算法基于CB、CF。归一法。Mahout应用。4、分类算法NB、SVM5、回归算法LR、DecisionTree6、聚类算法层次聚类、Kmeans7、神经网络与深度学习NN、Tensorflow

以上就是学习Hadoop开发的一个详细路线。如果需要了解具体框架的开发技术。可咨询加米谷大数据老师。详细了解。

学习大数据开发需要掌握哪些技术呢？

（1）Java语言基础Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类

（2）HTML、CSS与JavaPC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生Java交互功能开发、Ajax异步交互、jQuery应用

（3）JavaWeb和数据库数据库、JavaWeb开发核心、JavaWeb开发内幕

Linux&Hadoop生态体系

Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架分布式计算框架和Spark&Strom生态体系

（1）分布式计算框架Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一：基于Spark的推荐系统（某一线公司真实项目）、实战二：新浪网（www.sina.com.cn）

（2）storm技术架构体系Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、大数据项目实战数据获取、数据处理、数据分析、数据展现、数据应用大数据分析—AI（人工智能）DataAnalyze工作环境准备&数据分析基础、数据可视化、Python机器学习

其他观点：

消息队列很多：

1、RabbitMQ

RabbitMQ 2007年发布。是一个在AMQP(高级消息队列协议)基础上完成的。可复用的企业消息系统。是当前最主流的消息中间件之一。

2、ActiveMQ

ActiveMQ是由Apache出品。ActiveMQ 是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现。它非常快速。支持多种语言的客户端和协议。而且可以非常容易的嵌入到企业的应用环境中。并有许多高级功能

3、RocketMQ

RocketMQ出自阿里公司的开源产品。用 Java 语言实现。在设计时参考了 Kafka。并做出了自己的一些改进。消息可靠性上比 Kafka 更好。RocketMQ在阿里集团被广泛应用在订单。交易。充值。流计算。消息推送。日志流式处理等

4、Kafka

Apache Kafka是一个分布式消息发布订阅系统。它最初由LinkedIn公司基于独特的设计实现为一个分布式的提交日志系统( a distributed commit log)。。之后成为Apache项目的一部分。Kafka系统快速、可扩展并且可持久化。它的分区特性。可复制和可容错都是其不错的特性。

您还感兴趣的文章推荐

以上就是由互联网推广工程师网创网整理编辑的，如果觉得有帮助欢迎收藏转发~

本文标题：大数据的框架主要学习和使用什么呢？
本文地址：https://www.wangchuang8.com/260469.html，转载请说明来源于：网创推广网
声明：本站部分文章来自网络，如无特殊说明或标注，均为本站原创发布。如若本站内容侵犯了原著者的合法权益，可联系进行处理。分享目的仅供大家学习与参考,不代表本站立场。

网创网

发表评论取消回复

评论(2)

近期文章

相关推荐

发表评论 取消回复

评论(2)

发表评论取消回复