hadoop元数据库是什么，什么是Hadoop | 杭州编程培训机构哪家好—

专业编程培训机构——完成蜕变以后轻松拿高薪

电话+V： 152079-09430 ，欢迎咨询hadoop元数据库是什么，[python实用课程]，[C++单片机原理]，[C#网站搭建]，[Nodejs小程序开发]，[ios游戏开发]，[安卓游戏开发]，[教会用大脑用想法赚钱实现阶层跨越]

hadoop元数据库是什么

一、Hadoop元数据库概述

Hadoop是一个由Apache基金会所开发的分布式系统框架，它以一种可靠、高效、可伸缩的方式进行处理大规模数据集的工作。在Hadoop的生态体系中，有一个重要组成部分就是Hadoop元数据库（HadoopMetastore）。那么什么是Hadoop元数据库呢？简单来说，它是Hadoop用来存储和管理Hive中数据表的元数据信息的一种服务。

二、Hadoop元数据库的作用

1.数据表管理：通过Hadoop元数据库，我们可以创建、删除和修改Hive中的数据表。所有的这些操作都会改变元数据库中的信息，进而影响Hive对数据表的处理。

2.数据查询优化：在进行数据查询时，元数据库能够提供关于数据表结构的信息，帮助优化查询效率。

3.数据安全性：Hadoop元数据库还可以记录数据的访问历史，有助于保障数据的安全性。

三、Hadoop元数据库的应用

由于Hadoop元数据库的重要性，它在许多大数据解决方案中得到了应用。例如，它可以应用于数据仓库、商业智能（BI）系统，甚至是实时数据处理等场景。在这些应用中，Hadoop元数据库都发挥着关键作用。

什么是Hadoop

2020-06-2320:01·IT闻道者

Hadoop是Apache的开源框架，用于存储过程和分析大量数据。Hadoop是用Java编写的，不是OLAP（在线分析处理）。它用于批处理/脱机处理.Facebook，Yahoo，Google，Twitter，LinkedIn等使用它。而且，仅通过在集群中添加节点就可以扩大规模。

Hadoop的模块

HDFS：Hadoop分布式文件系统。Google发表了论文GFS，并在此基础上开发了HDFS。它指出文件将被分解为多个块，并存储在分布式体系结构的节点中。

YARM：另一个资源协商器用于作业调度和管理集群。

MapReduce：这是一个框架，可以帮助Java程序使用键值对对数据进行并行计算。Map任务会获取输入数据，并将其转换为可以在键值对中计算的数据集。Map任务的输出被reduce任务消耗，然后outofreducer给出所需的结果。

HadoopCommon：这些Java库用于启动Hadoop，并由其他Hadoop模块使用。

Hadoop架构

Hadoop体系结构是文件系统，MapReduce引擎和HDFS（Hadoop分布式文件系统）的软件包。MapReduce引擎可以是MapReduce/MR1或YARN/MR2。

Hadoop集群由一个主节点和多个从节点组成。主节点包括JobTracker，TaskTracker，NameNode和DataNode，而从节点包括DataNode和TaskTracker。

Hadoop架构

Hadoop分布式文件系统

Hadoop分布式文件系统（HDFS）是Hadoop的分布式文件系统。它包含一个主/从体系结构。该体系结构由一个NameNode充当主角色，而多个DataNode充当一个Slave角色。

NameNode和DataNode都具有足够的能力在商用机器上运行。Java语言用于开发HDFS。因此，任何支持Java语言的机器都可以轻松运行NameNode和DataNode软件。

名称节点

它是HDFS群集中存在的单个主服务器。

由于它是一个单节点，因此可能成为单点故障的原因。

它通过执行诸如打开，重命名和关闭文件之类的操作来管理文件系统名称空间。

它简化了系统的体系结构。

数据节点

HDFS群集包含多个DataNode。

每个DataNode包含多个数据块。

这些数据块用于存储数据。

DataNode负责读取和写入来自文件系统客户端的请求。

它根据NameNode的指令执行块创建，删除和复制。

工作追踪器

JobTracker的作用是从客户端接受MapReduce作业，并使用NameNode处理数据。

作为响应，NameNode将元数据提供给JobTracker。

任务追踪器

它充当JobTracker的从节点。

它从JobTracker接收任务和代码，并将该代码应用于文件。此过程也可以称为映射器。

MapReduce图层

当客户端应用程序将MapReduce作业提交给JobTracker时，MapReduce便存在了。作为响应，作业跟踪程序将请求发送到适当的任务跟踪程序。有时，TaskTracker失败或超时。在这种情况下，将重新安排该部分工作。

Hadoop的优势

快速：在HDFS中，数据分布在群集上并被映射，这有助于更快地进行检索。即使是用于处理数据的工具也经常位于同一服务器上，从而减少了处理时间。它能够在数分钟内处理数TB的数据，在数小时内处理Peta字节。

可扩展：只需在集群中添加节点即可扩展Hadoop集群。

具有成本效益：Hadoop是开放源代码，并使用商品硬件存储数据，因此与传统的关系数据库管理系统相比，它确实具有成本效益。

容错能力强：HDFS具有可以通过网络复制数据的属性，因此，如果一个节点出现故障或发生其他一些网络故障，那么Hadoop将获取另一份数据副本并使用它。通常，数据被复制三次，但是复制因子是可配置的。

Hadoop的历史

Hadoop由DougCutting和MikeCafarella于2002年创立。其起源是Google出版的GoogleFileSystem论文。

Hadoop的历史

让我们通过以下步骤关注Hadoop的历史：-

在2002年，DougCutting和MikeCafarella开始致力于ApacheNutch这个项目。这是一个开放源代码的Web爬虫软件项目。

在研究ApacheNutch时，他们正在处理大数据。为了存储该数据，他们必须花费大量成本，这成为该项目的结果。这个问题成为Hadoop出现的重要原因之一。

Google在2003年推出了一种称为GFS（Google文件系统）的文件系统。它是专有的分布式文件系统，旨在提供对数据的有效访问。

2004年，Google发布了有关MapReduce的白皮书。此技术简化了大型群集上的数据处理。

在2005年，DougCutting和MikeCafarella引入了一种新的文件系统，称为NDFS（Nutch分布式文件系统）。该文件系统还包括Mapreduce。

2006年，道格·切特（DougCutting）退出了Google，并加入了雅虎。在Nutch项目的基础上，DoughCutting引入了一个新项目Hadoop，该项目的文件系统称为HDFS（Hadoop分布式文件系统）。Hadoop于今年发布了第一个版本0.1.0。

道格·切特（DougCutting）以儿子的玩具大象命名为Hadoop项目。

2007年，雅虎运行着两个由1000台计算机组成的集群。

在2008年，Hadoop成为最快的系统，可在209秒内对900节点集群上的1TB数据进行排序。

2013年，Hadoop2.2发布了。

在2017年，Hadoop3.0发布了。

年事件2003年谷歌发布了论文，谷歌文件系统（GFS）。2004年Google发布了有关MapReduce的白皮书。2006年

引入了Hadoop。

Hadoop0.1.0发布。

雅虎部署了300台计算机，今年将达到600台计算机。

2007年

雅虎运行着2个1000台机器的集群。

Hadoop包含HBase。

2008年

纱JIRA开业

Hadoop成为最快的系统，可在209秒内对900节点集群上的1TB数据进行排序。

Yahoo群集每天加载10TB数据。

Cloudera成立时是Hadoop发行商。

2009年

雅虎运行着17个群集，其中包含24，000台计算机。

Hadoop具有足够的能力来分类PB。

MapReduce和HDFS成为单独的子项目。

2010

Hadoop添加了对Kerberos的支持。

Hadoop操作4000个节点（40PB）。

ApacheHive和Pig发行了。

2011年

ApacheZookeeper发布了。

雅虎拥有42，000个Hadoop节点和数百PB的存储空间。

2012年ApacheHadoop1.0版本发布。2013年ApacheHadoop2.2版本发布。2014年ApacheHadoop2.6版本发布。2015年ApacheHadoop2.7版本发布。2017年ApacheHadoop3.0版本发布。2018年ApacheHadoop3.1版本已发布。

【FUTURE PROGRAMMING COURSE】尊享对接老板

电话+V： 152079-09430

机构由一批拥有10年以上开发管理经验，且来自互联网或研究机构的IT精英组成，负责研究、开发教学模式和课程内容。公司具有完善的课程研发体系，一直走在整个行业发展的前端，在行业内竖立起了良好的品质口碑。