首页 > 学院 > 操作系统 > 正文

Hive[1] 初识 及 安装

2024-06-28 13:22:34
字体:
来源:转载
供稿:网友
Hive[1] 初识 及 安装本文前提是Hadoop & java & MySQL 数据库,已经安装配置好,并且 环境变量均已经配置到位声明:本笔记参照 学习《Hive 编程指南》而来,如果有错误之处还望大家留言指出!望与大家共同进步!一、Hive 基本介绍 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MaPReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作。就是这一个点,解决了原数据分析人员对于大数据分析的瓶颈。

Hive起源于Facebook,它使得针对Hadoop进行SQL查询成为可能,从而非程序员也可以方便地使用。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务运行。

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

优点:Hive 最适合于数据仓库应用,可以维护海量数据,而且可以对数据进行挖掘,然后形成意见和报告等,只要略懂得SQL语法的话就会很容易上手;

缺点:它不是一个完整的数据库,最大的限制就是Hive不支持记录级别的更新,插入或者删除操作;这是 Hadoop 以及 HDFS 的设计本身约束和局限性地限制了Hive所能胜任的工作。但用户可以通过查询生成新表或者将查询结果导入到文件中;Hive 也不支持事务;

Hive 也有图形界面管理的商业产品: Cloudera 提供的 Hue 项目(https://github.com/cloudera/hue)

Hive 的功能模块:

二、Hive 的安装1)下载Hive 我们用最新的stable【稳定】版本:wgethttp://mirror.bit.edu.cn/apache/hive/stable/apache-hive-0.14.0-bin.tar.gz --获取最新版本tar -zxvfapache-hive-0.14.0-bin.tar.gz --解压缩cp apache-hive-0.14.0-bin /usr/local/software/ --并复制到安装上目录/usr/local/softwaremvapache-hive-0.14.0-binhive-0.14.0 --改个名字2)Hive配置cdhive-0.14.0/confcp hive-default.xml.template hive-site.xmlcp hive-log4j.properties.template hive-log4j.properties修改配置文件:把Hive的元数据存储到MySQL中vi hive-siet.xml<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://192.168.128.129:3306/hive_metadata?createDatabaseIfNotExist=true</value><description>JDBC connect string for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value><description>Driver class name for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>root</value><description>username to use against metastore database</description></property><property><name>javax.jdo.option.ConnectionPassWord</name><value>911</value><description>password to use against metastore database</description></property><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value><description>location of default database for the warehouse</description></property>修改hive-log4j.properties#log4j.appender.EventCounter=org.apache.hadoop.metrics.jvm.EventCounterlog4j.appender.EventCounter=org.apache.hadoop.log.metrics.EventCounter3)设置环境变量vi /etc/profileexport HIVE_INSTALL=/usr/local/software/hive-0.14.0export PATH=$PATH:$HIVE_INSTALL/binexport CLASS_PATH=$CLASS_PATH:HIVE_INSTALL/libsource /etc/profile 使修改及时生效4)在hdfs上面,创建目录$HADOOP_HOME/bin/hadoop fs -ls /$HADOOP_HOME/bin/hadoop fs -mkdir /user/hive$HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse$HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp$HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表