Hadoop实战:Sqoop 1.4.6安装配置使用
Sqoop简介 Sqoop是一个用于Hadoop和关系型数据库或主机之间的数据传输工具。它可以将数据从关系型数据库import到HDFS,也可以从HDFS export到关系型数据库,通过Hadoop的MapReduce实现。 最近在研究数据采集相关的知识,需要用到Sqoop把关系型数据库的数据导入到Hive里。刚开始就使用了Sqoop 1.99版本,用着发……
Hadoop实战:Sqoop 1.99安装配置
Sqoop介绍 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,特别是hadoop所使用的HDFS分布式文件系统。作为ASF下的一个开源项目,其一开始也只是一个小工具,当然现在也是,还附带一些库供客户端调用。Sq……
Hadoop实战:Sqoop 1.99把MySQL导数据到HDFS
Sqoop客户端 sqoop2客户端提供各种命令行交互接口,供用户使用。sqoop2客户端先连接Sqoop Server,将参数传递过去,再调用mapreduce进行数据导入到出作业。以下是sqoop2中比较重要的几个对象。 1)connector:sqoop2中预定一了各种里链接,这些链接是一些配置模板,比如最基本的generic-jdbc-connect……
Hadoop实战:Sqoop 1.99命令使用
一、了解sqoop数据导入的几个重要概念 1)connector:sqoop2中预定了各种链接,这些链接是一些配置模板。 sqoop:000> show connector +------------------------+---------+--------------------------------------……
Hadoop实战:使用Maxwell将MySQL数据实时同步到HDFS
一、Maxwell介绍 Maxwell是一个守护程序,一个应用程序,能够读取MySQL Binlogs然后解析输出为json。支持数据输出到Kafka中,支持表和库过滤。 → Reference:http://maxwells-daemon.io → Download: https://github.com/zendesk/maxwell/releases/……
Hadoop实战:Flume输入日志到HDFS报错解决
使用Flume把日志存储到HDFS,在启动时报错如下: 2017-06-16 08:58:32,634 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationProvider$FileWatcherRunnabl……
Hadoop实战:Hive操作使用
Hive表类型测试 内部表 数据准备,先在HDFS上准备文本文件,逗号分割,并上传到/test目录,然后在Hive里创建表,表名和文件名要相同。 $ cat /tmp/table_test.csv 1,user1,1000 2,user2,2000 3,user3,3000 4,user4,4000 5,user5,……
Hadoop实战:Hive安装配置
Hive的介绍 Hive是一个强大的工具。它使用了HDFS,元数据存储(默认情况下是一个 Apache Derby 数据库)、shell命令、驱动器、编译器和执行引擎。它还支持Java数据库连接性 (JDBC) 连接。 由于其类似SQL的能力和类似数据库的功能,Hive能够为非编程人员打开大数据Hadoop生态系统。它还提供了外部BI软件,例如,通过 JDB……
Hadoop实战:Hadoop分布式集群部署(一)
一、系统参数优化配置 1.1 系统内核参数优化配置 修改文件/etc/sysctl.conf,使用sysctl -p命令即时生效。 kernel.shmmax = 500000000 kernel.shmmni = 4096 kernel.shmall = 4000000000 kernel.sem = 250 51200……
Hadoop实战:Hbase分布式集群安装
一、安装Hbase前提条件 1)JDK和HDFS集群已经安装了。 2)打通Mster->Slave的SSH免秘钥登录(安装HDFS时Hadoop用户已经打通)。 3)所有主机的NTP时间要一致(安装HDFS集群时已经设置一致)。 4)ULIMIT和NPROC要调大(安装HDFS集群时已经调整)。 5)安装Zookeeper集群,一个分布式运行的Hbas……
大数据生态到底是一个什么概念?
大数据这个概念本身就太大而且太宽,如果一定要严格定义是非常困难的一件事,不过Hadoop生态圈或者由其延伸的泛生态系统,基本上都是为了处理大量数据诞生的——一般而言,这种数据依赖单机很难完成。 这个圈子里的工具,就像是我们厨房里的各种厨具——各自都有不同的用处,但也有一部分功能重合,比如盆和豌都可以用来喝汤,削皮刀和菜刀都可以用来去皮。 但是,盆用来喝汤未免……
- 1
- 2