Hive如何实现更新操作？

3个回答

匿名用户2024-01-25

1.如果要使用Hive，首先需要启动Hadoop，因为Hive的使用取决于Hadoop的HDFS文件系统。

和MapReduce计算，下图是启动Hadoop，如下图所示。

2.然后打开Hadoop集群的主主机，然后使用[ifconfig]命令查看机器的IP地址，该IP地址在SecureCRT软件中使用，如下图所示。

3.然后打开SecureCRT软件，输入命令【rz】，准备上传Hive安装包。

<>5.然后在软件中观察文件上传的进度，上传如下图。

6. 在Hadoop集群master终端输入[ll]命令，查看上传的Hive安装包，红色表示压缩包。

7. 然后键入 [chmod +x.]。命令，授权文件。
匿名用户2024-01-24

数据更新是一种常见的操作，然后数据仓库的概念一般要求数据是集成的和稳定的。作为分布式环境中HDFS支持的数据仓库，Hive也需要更多的数据才能实现不可变。

但是，在现实中，很多任务往往需要更新数据，经过调查，Hive从版本开始就提供了更新操作。所以我想我应该尝试一下，看看 Hive 更新是如何工作的和执行的。

按照在线方法进行设置。

true true (not required as of hive

nonstrict

true (for exactly one instance of the thrift metastore service)

a positive

同时将以下内容添加到创建的表中：存储为 orc tblproperties（'transactional'='true');以支持 ACID 的要求。

例如，使用一个简单的表进行实验：（id int， name string），随意导入几条数据，并对其进行测试。

编写更新操作命令：update **set name ='aaa' where id =1;

结果如下：

看来这样，hive 非常适合更新操作。事实上，经过实验发现，Hive的更新机制非常慢，测试一次只有6行的数据测试需要180s，这绝对是无法忍受的。猜猜为什么您可能需要读出原始表，更新它，然后将其写回 HDFS？

这只是猜测。

另外一件很麻烦的事情是，在这个 Hive 环境中支持 ACID 的表只能在 Hive 内部访问，而在 Beeline 或 Spark 环境中，无法获取数据。或者没有向外界提供接口。（中间一行不显示数据！
匿名用户2024-01-23

它应该是 Hadoop 在 HBase 和 Hive 中的角色。 HBase 和 Hive 都建立在 Hadoop 之上。它们都使用Hadoop作为底层存储。

HBase 用作分布式数据库，而 Hive 用作分布式数据仓库。当然，Hive还是会借鉴Hadoop的MapReduce来完成Hive中一些命令的执行。