apache atlas使用import-hive.sh导入hive历史元数据后没有lineage,并且...

发布网友发布时间：2022-04-23 08:30

共2个回答

热心网友时间：2022-04-08 22:52

我从谷歌上找到的说明是，atlas没有支持到hive内部表（managed table）的lineage，只有External修饰的表才能生成血缘。但是解决方案我也没找到啊。。。

网页链接

热心网友时间：2022-04-09 00:10

Sqoop是一个用于在外部结构化数据与Hadoop之间导入导出数据的工具。

Apache Sqoop is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.

Sqoop:

是一个命令行工具？

使得结构化数据与Hadoop之间的导入导出变得容易

可以导入整个库或者单个表

可以与Oozie集成，将导入导出作为工作流的一部分。

内部转化为MapRece，用于传输数据

下载安装配置

根据Hadoop版本选择对应的Sqoop，我这里是Hadoop，选择Sqoop 1.99.6：

配置PATH：

配置server/conf/catalina.properties

配置server/conf/sqoop.properties:

验证是否配置正确：

启动sqoop server：

启动的的tomcat运行在12000端口。

启动客户端shell：

Sqoop实例

启动Hadoop集群：

启动sqoop2-shell:

查看版本和connector：

创建JDBC link:

创建HDFS link：

查看可用link

创建从JDBC到HDFS的作业：

f和t分别指定from和to的link。然后主要是配置数据源中的数据库和表，分区字段，文件格式，压缩格式等：

启动刚才创建的作业：

查看进度：

YARN管理界面中的MapRece作业：

查看HDFS上是否有文件：

最后运行结果：

如果发现无法查看作业状态，出现如下异常：

从server的tomcat日志查看到如下异常：

根据经验判断，是没有启动历史作业的服务器，使用如下命令启动：

从YARN管理器上看：

可见Sqoop启动了一个只有map没有rece的MapRece作业，使用了10个map。耗时一分钟54秒。

核心概念：Sqoop Connector

Sqoop的整个架构是基于Connector的，外部的结构化数据与Hadoop之间通过Connector连接器完成数据传输。例如针对RDBMS的MySQL连接器，Oracle连接器等，还有一个通用的JDBC连接器。

另外一些Connector针对特定的数据库做了优化，例如使用MySQL的mysqlmp可以提高导入效率，这称为Direct-Mode。除了内置的Sqoop Connector外，还有许多第三方的Connector，包括像Couchbase这样的NoSQL数据库。

可以通过sqoop2-shell的命令查看可用的connector：

工作原理

Sqoop内部将数据集划分为不同的分区（Partition），然后使用只有map的MapRece作业来完成数据传输，每个mapper负责一个分区。Sqoop使用数据库元数据来确保类型安全。

代码生成：

生成的代码保存表中提取出来的一条数据，可以在MapRece中操作数据或者存入到SequenceFile中，每条记录作为value保存在文件中。

基于文本的文件可以不生成代码。

Sqoop启动MapRece作业用于传输数据。InputFormat可以通过JDBC读取表中的部分数据。Hadoop自带的DataDrivenDBInputFormat用于对表数据进行分区，每个map传输其中的一部分数据。

数据分区一般根据表中特定的列，例如主键。在运行时可以通过指定–split-by参数指定分区使用的列。

可以通过--where参数对导入的数据进行过滤，更复杂的控制可以通过–query参数完成，这在增量任务中很有用。

由于导入进程是并发执行的，进行事务控制很困难。因此通过使用关闭数据写入的方式来保证数据的一致性。

增量导入

通过使用--check-column和--last-value参数，可以增量导入新增的数据，Sqoop只导入指定列中大于last-value的记录。

对于写入后不更新的数据，并且ID是严格递增的，可以使用--incremental参数增量导入。

会更新的数据，可以使用--incremental lastmodified来增量。增量导入结束后，Sqoop会打印出--last-value，用于下次使用，但是更好的方式是使用Sqoop自动保存这个值，下次的时候也自动使用这个值。

Direct-Mode导入

大部分导入都通过DataDrivenDBInputFormat来实现，但是有些数据提供了专门的工具用来快速导入，例如MySQL的mysqlmp，这个工具的吞吐量远大于JDBC的能力。使用这些外部工具来完成导入，sqoop中成为Direct-Mode，MapRece作用启动myqlmp，然后读取其输出文件，导入数据。这种模式通过--direct参数来启用，同时会受到一些*，例如使用mysqlmp无法读取CLOB，BLOB这样的数据类型。数据库元数据的获取依然是通过JDBC来完成。

导入后的数据处理

通过Sqoop导入的数据，如果是文本，那么在处理的时候可能需要完成类型的转换，sqoop的生成代码可以帮助完成这个工具，使得我们可以专注于MapRece的业务逻辑。运行这些作业时，需确保Sqoop的库可以被读取到。驱动程序中可以通过HADOOP_CLASSPATH环境变量来配置：

Map作业节点上可以通过libjars参数设置：

如果导入的文件是Avro格式，可以通过Avro MapRece来处理，通过使用Generic Avro mapping来完成，可以不使用Schema生成的代码。

导入数据与Hive

Sqoop与Hive经常作为工具组合来处理来自关系型数据库中的数据。使用Sqoop提供的工具可以从关系型的元数据中生成Hive表：

由于Hive的数据类型跟大部分关系型数据库相比较都比较简陋，因此Sqoop在生成Hive表的时候，会尽可能使用接近的数据类型。但是这还是可以导致丢失精度的情况，这时候Sqoop会给出警告信息。例如：

假设widgets表的数据已经通过Sqoop导入到HDFS中的widgets目录，使用下面的命令可以将这些数据导入到创建的Hive表：

导入数据到HDFS、创建Hive表、导入HDFS的数据到Hive表这三个步骤可以被简化成一个步骤：

使用--hive-import参数导入数据的时候，Sqoop直接把数据从源数据库导入到Hive表，Hive的Schema通过元数据推断而来。

导入到Hive后，就可以结合其他数据，例如LOG日志进行数据分析了。

导入大对象

大多数数据库都允许我们将大量的数据存在一个字段，通常有存储文本的CLOB和存储二进制的BLOB。在存储方式上，为了避免扫描时读取大对象字段到内存中，通常不在记录中内联存储大对象，而是独立到外部。

在MapRece中，数据在送往mapper之前，通常需要物化到内存中，如果把大对象跟其他普通字段存在同一个文件中，将会导致MapRece性能非常低下。所以Sqoop导入的数据在存储格式上跟数据库非常相似，如果大对象的大小超过16MB（通过sqoop.inline.lob.length.max设置），会被存储在另外的文件中，这种文件的格式为LobFile，LobFile中的每条记录存储一个大对象。这样在客户端（如MapRece）读入数据的时候，无需读入整个大文件，而只是存储一个引用，当真正需要访问时，则通过该引用进而通过InputStream访问具体的大对象数据。

二进制大对象的引用是一个BlobRef，其格式如下：

分别代表格式为LobFile，存储在lobfile0中，偏移量为100，数据长度为5011714字节。通过BlobRef的getDataStream方法，可以获取到指向大对象的输入流（InputStream）。

CBLOB类似的使用ClobRef引用。

在MapRece中，访问大对象的次数经常很少，通过这种外部文件加引用的方式，可以大大提高IO效率。

数据导出

Sqoop也可以用于将数据从Hadoop导出到外部数据库。在导出之前，需要先手动创建表（Sqoop可以从SQL类型推断Java类型，但是不能够从Java类型正确推断SQL类型，例如Java的String可以存为CAHR，VARCHAR或者其他类型，因此必须手动创建对应的表。

导出命令如下：

上述命令导出Hive的zip_profites表到mysql的sale_by_zip表，其中指定了Hive文件中默认的字段分隔符CTRL+A(Unicode字符为0x0001)。

在导出数据之前，Sqoop会根据connect string选定一种策略，例如使用mysqlimport或者JDBC。然后基于目标表的元数据生成一个类，这个类能够从文本文件中解析出记录，并将记录插入到对应的表。然后启动一个MapRece作业，从HDFS中读取文件，用生成的类解析成记录，并用选定的策略执行导出。

对于mysql的direct-mode，每个map任务启动一个mysqlimport进程，并使用FIFO文件进行通信，导入数据到mysql。map的数量可以通过-m选项指定。基于JDBC的策略会使用批量的模式导出数据。

导出数据是不具备事务性的，并行的导入map可能在不同的时间结束，即使在任务中使用事务，前一个任务的输出也可能在后续的task完成之前可见。另外数据库经常使用固定大小的缓冲来保存事物，这个缓冲很有太小容纳不下一个任务重的所有数据。因此通常在导出完成之前，其他使用数据的应用最好不用访问数据，避免只看到部分结果。

有一种方式可以解决这个问题，Sqoop允许我们先将数据导出到一个临时表，然后在导出结束之后，使用单个事务将中间表导入最终的目标表。临时表通过--staging-table参数指定，这个临时表必须是已经存在的表并且是空的，除非指定了--clear-staging-table参数。使用这种方式会导致性能下降，因为数据需要写两次，并且在最后的数据移动阶段，其实是有2份数据的，占用了更多的空间。

导出SequenceFile

Sqoop可以导出非Hive表的数据，例如SequenceFile类型的文件，但是有较多的*。

as-sequencefile指定导入味SequenceFile，bindir指定jar包放在当前目录下，供下一步使用。

jar-file指定上一步中生成的jar包。

追问我问的不是sqoop，是apache atlas的问题

apache atlas使用import-hive.sh导入hive历史元数据后没有lineage,并且...

我从谷歌上找到的说明是，atlas没有支持到hive内部表（managed table）的lineage，只有External修饰的表才能生成血缘。但是解决方案我也没找到啊。。。网页链接

spark和hadoop的区别

计算不同spark和hadoop在分布式计算的底层思路上，其实是极为相似的，即mapreduce分布式运算模型：将运算分成两个阶段，阶段1-map，负责从上游拉取数据后各自运算，然后将运算结果shuffle给下游的reduce，reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上，又有区别；hado...

怎样学习大数据?

当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。Spark：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢...

impala同步hive元数据 hive元数据row_num hive元数据是什么 hive元数据同步 hive是怎么管理元数据的 hive元数据库 hive刷新元数据 hive中的元数据不包括 hive删除表的元数据