新闻详细
新闻当前位置:新闻详细

hadoop元数据库是什么,什么是Hadoop

专业编程培训机构——完成蜕变以后轻松拿高薪

电话+V: 152079-09430 ,欢迎咨询hadoop元数据库是什么,[python实用课程],[C++单片机原理],[C#网站搭建],[Nodejs小程序开发],[ios游戏开发],[安卓游戏开发],[教会用大脑用想法赚钱实现阶层跨越]

hadoop元数据库是什么

一、Hadoop元数据库概述

Hadoop是一个由Apache基金会所开发的分布式系统框架,它以一种可靠、高效、可伸缩的方式进行处理大规模数据集的工作。在Hadoop的生态体系中,有一个重要组成部分就是Hadoop元数据库(HadoopMetastore)。那么什么是Hadoop元数据库呢?简单来说,它是Hadoop用来存储和管理Hive中数据表的元数据信息的一种服务。

二、Hadoop元数据库的作用

1.数据表管理:通过Hadoop元数据库,我们可以创建、删除和修改Hive中的数据表。所有的这些操作都会改变元数据库中的信息,进而影响Hive对数据表的处理。

2.数据查询优化:在进行数据查询时,元数据库能够提供关于数据表结构的信息,帮助优化查询效率。

3.数据安全性:Hadoop元数据库还可以记录数据的访问历史,有助于保障数据的安全性。

三、Hadoop元数据库的应用

由于Hadoop元数据库的重要性,它在许多大数据解决方案中得到了应用。例如,它可以应用于数据仓库、商业智能(BI)系统,甚至是实时数据处理等场景。在这些应用中,Hadoop元数据库都发挥着关键作用。

什么是Hadoop

2020-06-2320:01·IT闻道者

Hadoop是Apache的开源框架,用于存储过程和分析大量数据。Hadoop是用Java编写的,不是OLAP(在线分析处理)。它用于批处理/脱机处理.Facebook,Yahoo,Google,Twitter,LinkedIn等使用它。而且,仅通过在集群中添加节点就可以扩大规模。


Hadoop的模块

  • HDFS:Hadoop分布式文件系统。Google发表了论文GFS,并在此基础上开发了HDFS。它指出文件将被分解为多个块,并存储在分布式体系结构的节点中。
  • YARM:另一个资源协商器用于作业调度和管理集群。
  • MapReduce:这是一个框架,可以帮助Java程序使用键值对对数据进行并行计算。Map任务会获取输入数据,并将其转换为可以在键值对中计算的数据集。Map任务的输出被reduce任务消耗,然后outofreducer给出所需的结果。
  • HadoopCommon:这些Java库用于启动Hadoop,并由其他Hadoop模块使用。

  • Hadoop架构

    Hadoop体系结构是文件系统,MapReduce引擎和HDFS(Hadoop分布式文件系统)的软件包。MapReduce引擎可以是MapReduce/MR1或YARN/MR2。

    Hadoop集群由一个主节点和多个从节点组成。主节点包括JobTracker,TaskTracker,NameNode和DataNode,而从节点包括DataNode和TaskTracker。


    Hadoop架构

    Hadoop分布式文件系统

    Hadoop分布式文件系统(HDFS)是Hadoop的分布式文件系统。它包含一个主/从体系结构。该体系结构由一个NameNode充当主角色,而多个DataNode充当一个Slave角色。

    NameNode和DataNode都具有足够的能力在商用机器上运行。Java语言用于开发HDFS。因此,任何支持Java语言的机器都可以轻松运行NameNode和DataNode软件。


    名称节点

  • 它是HDFS群集中存在的单个主服务器。
  • 由于它是一个单节点,因此可能成为单点故障的原因。
  • 它通过执行诸如打开,重命名和关闭文件之类的操作来管理文件系统名称空间。
  • 它简化了系统的体系结构。
  • 数据节点

  • HDFS群集包含多个DataNode。
  • 每个DataNode包含多个数据块。
  • 这些数据块用于存储数据。
  • DataNode负责读取和写入来自文件系统客户端的请求。
  • 它根据NameNode的指令执行块创建,删除和复制。
  • 工作追踪器

  • JobTracker的作用是从客户端接受MapReduce作业,并使用NameNode处理数据。
  • 作为响应,NameNode将元数据提供给JobTracker。
  • 任务追踪器

  • 它充当JobTracker的从节点。
  • 它从JobTracker接收任务和代码,并将该代码应用于文件。此过程也可以称为映射器。
  • MapReduce图层

    当客户端应用程序将MapReduce作业提交给JobTracker时,MapReduce便存在了。作为响应,作业跟踪程序将请求发送到适当的任务跟踪程序。有时,TaskTracker失败或超时。在这种情况下,将重新安排该部分工作。

    Hadoop的优势

  • 快速:在HDFS中,数据分布在群集上并被映射,这有助于更快地进行检索。即使是用于处理数据的工具也经常位于同一服务器上,从而减少了处理时间。它能够在数分钟内处理数TB的数据,在数小时内处理Peta字节。
  • 可扩展:只需在集群中添加节点即可扩展Hadoop集群。
  • 具有成本效益:Hadoop是开放源代码,并使用商品硬件存储数据,因此与传统的关系数据库管理系统相比,它确实具有成本效益。
  • 容错能力强:HDFS具有可以通过网络复制数据的属性,因此,如果一个节点出现故障或发生其他一些网络故障,那么Hadoop将获取另一份数据副本并使用它。通常,数据被复制三次,但是复制因子是可配置的。
  • Hadoop的历史

    hadoop元数据库是什么

    Hadoop由DougCutting和MikeCafarella于2002年创立。其起源是Google出版的GoogleFileSystem论文。

    Hadoop的历史

    让我们通过以下步骤关注Hadoop的历史:-

  • 在2002年,DougCutting和MikeCafarella开始致力于ApacheNutch这个项目这是一个开放源代码的Web爬虫软件项目。
  • 在研究ApacheNutch时,他们正在处理大数据。为了存储该数据,他们必须花费大量成本,这成为该项目的结果。这个问题成为Hadoop出现的重要原因之一。
  • Google在2003年推出了一种称为GFS(Google文件系统)的文件系统。它是专有的分布式文件系统,旨在提供对数据的有效访问。
  • 2004年,Google发布了有关MapReduce的白皮书。此技术简化了大型群集上的数据处理。
  • 在2005年,DougCutting和MikeCafarella引入了一种新的文件系统,称为NDFS(Nutch分布式文件系统)。该文件系统还包括Mapreduce。
  • 2006年,道格·切特(DougCutting)退出了Google,并加入了雅虎。在Nutch项目的基础上,DoughCutting引入了一个新项目Hadoop,该项目的文件系统称为HDFS(Hadoop分布式文件系统)。Hadoop于今年发布了第一个版本0.1.0。
  • 道格·切特(DougCutting)以儿子的玩具大象命名为Hadoop项目。
  • 2007年,雅虎运行着两个由1000台计算机组成的集群。
  • 在2008年,Hadoop成为最快的系统,可在209秒内对900节点集群上的1TB数据进行排序。
  • 2013年,Hadoop2.2发布了。
  • 在2017年,Hadoop3.0发布了。
  • 年事件2003年谷歌发布了论文,谷歌文件系统(GFS)。2004年Google发布了有关MapReduce的白皮书。2006年

  • 引入了Hadoop。
  • Hadoop0.1.0发布。
  • 雅虎部署了300台计算机,今年将达到600台计算机。
  • 2007年

  • 雅虎运行着2个1000台机器的集群。
  • Hadoop包含HBase。
  • 2008年

  • 纱JIRA开业
  • Hadoop成为最快的系统,可在209秒内对900节点集群上的1TB数据进行排序。
  • Yahoo群集每天加载10TB数据。
  • Cloudera成立时是Hadoop发行商。
  • 2009年

  • 雅虎运行着17个群集,其中包含24,000台计算机。
  • Hadoop具有足够的能力来分类PB。
  • MapReduce和HDFS成为单独的子项目。
  • 2010

  • Hadoop添加了对Kerberos的支持。
  • Hadoop操作4000个节点(40PB)。
  • ApacheHive和Pig发行了。
  • 2011年

  • ApacheZookeeper发布了。
  • 雅虎拥有42,000个Hadoop节点和数百PB的存储空间。
  • 2012年ApacheHadoop1.0版本发布。2013年ApacheHadoop2.2版本发布。2014年ApacheHadoop2.6版本发布。2015年ApacheHadoop2.7版本发布。2017年ApacheHadoop3.0版本发布。2018年ApacheHadoop3.1版本已发布。

    【FUTURE PROGRAMMING COURSE】尊享对接老板

    电话+V: 152079-09430

    机构由一批拥有10年以上开发管理经验,且来自互联网或研究机构的IT精英组成,负责研究、开发教学模式和课程内容。公司具有完善的课程研发体系,一直走在整个行业发展的前端,在行业内竖立起了良好的品质口碑。

    hadoop元数据库是什么
    Copyright2025未知推广科技