大数据 #Hive

Hive

Hive入门什么是Hive Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。 Hive的本质是一个Hadoop客户端，用于将HQL（Hive SQL）转化成MapReduce程序。 Hive中每张表的数据存储在HDF

Published on 2023-11-22

大数据 #spark

SparkStreaming

概述什么是Spark Streaming Spark Streaming 用于流式数据的处理，是对Spark Core的拓展。 Spark Streaming 使用离散化流(discretized stream)作为抽象表示，叫作 DStream。 DStream 是随时间推移而收到的数据的序列。

Published on 2023-11-14

大数据 #spark

SparkSQL

概述什么是SparkSQL Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。 Hive and SparkSQL Hive 和 SparkSQL都是通过SQL进行操作，Hive主要用于操作MapReduce，SparkSQL主要用于操作

Published on 2023-11-09

大数据 #spark

SparkCore

概述什么是Spark Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Spark and Hadoop Spark 出现的时间相对较晚，并且主要功能是用于数据计算，所以 Spark 一直被认为是 Hadoop MapReduce 的升级版。 Spark和Hadoop的根本差

Published on 2023-11-07

大数据 #Hadoop

Hadoop-HDFS

概念 HDFS（Hadoop Distributed File System），Hadoop分布式文件系统 HDFS的使用场景：适合一次写入，多次读出的场景。 HDFS的优点：高容错性适合处理大数据可构建在廉价机器上，通过多副本机制，提高可靠性 HDFS的缺点：不适合低延时数据访问无法高

Published on 2023-10-20

大数据 #Hadoop

Hadoop-MapReduce

MapReduce概述定义 MapReduce是一个分布式运算程序的编程框架优缺点优点：易于编程良好的拓展性高容错性适合PB级以上海量数据的离线处理缺点：不擅长实时计算不擅长流式计算不擅长DAG（有向无环图）计算 MapReduce进程一个完整的MapReduce程序在分布式

Published on 2023-10-20

大数据 #Hadoop

Hadoop-Yarn

Yarn资源调度器Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源Yarn基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn工作机制Yarn调度器和调度算法Hadoop作业调度器主要有三

Published on 2023-10-20

大数据 #Hadoop

Hadoop入门

基础概念 Hadoop组成 HDFS Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。 NameNode 存储文件的元数据，如：文件名，文件目录结构，文件属性（生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNode等。 Data

Published on 2023-10-20

Menu

Hive

SparkStreaming

SparkSQL

SparkCore

Hadoop-HDFS

Hadoop-MapReduce

Hadoop-Yarn

Hadoop入门

web前端基础

SpringCloud

2048实战

MOOC C++（一）

Hadoop-MapReduce

Spring Web 全栈（二）

得物实战

Vue入门

MySQL入门

Redis