• 进入"运维那点事"后,希望您第一件事就是阅读“关于”栏目,仔细阅读“关于Ctrl+c问题”,不希望误会!
Hadoop实战:Sqoop 1.4.6安装配置使用

Hadoop实战:Sqoop 1.4.6安装配置使用

Sqoop简介 Sqoop是一个用于Hadoop和关系型数据库或主机之间的数据传输工具。它可以将数据从关系型数据库import到HDFS,也可以从HDFS export到关系型数据库,通过Hadoop的MapReduce实现。 最近在研究数据采集相关的知识,需要用到Sqoop把关系型数据库的数据导入到Hive里。刚开始就使用了Sqoop 1.99版本,用着发……

Hadoop实战:Sqoop 1.99安装配置

Hadoop实战:Sqoop 1.99安装配置

Sqoop介绍 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,特别是hadoop所使用的HDFS分布式文件系统。作为ASF下的一个开源项目,其一开始也只是一个小工具,当然现在也是,还附带一些库供客户端调用。Sq……

Hadoop实战:Sqoop 1.99把MySQL导数据到HDFS

Hadoop实战:Sqoop 1.99把MySQL导数据到HDFS

Sqoop客户端 sqoop2客户端提供各种命令行交互接口,供用户使用。sqoop2客户端先连接Sqoop Server,将参数传递过去,再调用mapreduce进行数据导入到出作业。以下是sqoop2中比较重要的几个对象。 1)connector:sqoop2中预定一了各种里链接,这些链接是一些配置模板,比如最基本的generic-jdbc-connect……

Hadoop实战:Sqoop 1.99命令使用

Hadoop实战:Sqoop 1.99命令使用

一、了解sqoop数据导入的几个重要概念 1)connector:sqoop2中预定了各种链接,这些链接是一些配置模板。 sqoop:000> show connector +------------------------+---------+--------------------------------------……

Hadoop实战:使用Maxwell将MySQL数据实时同步到HDFS

Hadoop实战:使用Maxwell将MySQL数据实时同步到HDFS

一、Maxwell介绍 Maxwell是一个守护程序,一个应用程序,能够读取MySQL Binlogs然后解析输出为json。支持数据输出到Kafka中,支持表和库过滤。 → Reference:http://maxwells-daemon.io → Download: https://github.com/zendesk/maxwell/releases/……

Hadoop实战:Flume输入日志到HDFS报错解决

Hadoop实战:Flume输入日志到HDFS报错解决

使用Flume把日志存储到HDFS,在启动时报错如下: 2017-06-16 08:58:32,634 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationProvider$FileWatcherRunnabl……

Hadoop实战:Hive操作使用

Hadoop实战:Hive操作使用

Hive表类型测试 内部表 数据准备,先在HDFS上准备文本文件,逗号分割,并上传到/test目录,然后在Hive里创建表,表名和文件名要相同。 $ cat /tmp/table_test.csv 1,user1,1000 2,user2,2000 3,user3,3000 4,user4,4000 5,user5,……

Hadoop实战:Hive安装配置

Hadoop实战:Hive安装配置

Hive的介绍 Hive是一个强大的工具。它使用了HDFS,元数据存储(默认情况下是一个 Apache Derby 数据库)、shell命令、驱动器、编译器和执行引擎。它还支持Java数据库连接性 (JDBC) 连接。 由于其类似SQL的能力和类似数据库的功能,Hive能够为非编程人员打开大数据Hadoop生态系统。它还提供了外部BI软件,例如,通过 JDB……

Hadoop实战:Hadoop分布式集群部署(一)

Hadoop实战:Hadoop分布式集群部署(一)

一、系统参数优化配置 1.1 系统内核参数优化配置 修改文件/etc/sysctl.conf,使用sysctl -p命令即时生效。 kernel.shmmax = 500000000 kernel.shmmni = 4096 kernel.shmall = 4000000000 kernel.sem = 250 51200……

大数据生态到底是一个什么概念?

大数据生态到底是一个什么概念?

大数据这个概念本身就太大而且太宽,如果一定要严格定义是非常困难的一件事,不过Hadoop生态圈或者由其延伸的泛生态系统,基本上都是为了处理大量数据诞生的——一般而言,这种数据依赖单机很难完成。 这个圈子里的工具,就像是我们厨房里的各种厨具——各自都有不同的用处,但也有一部分功能重合,比如盆和豌都可以用来喝汤,削皮刀和菜刀都可以用来去皮。 但是,盆用来喝汤未免……

Hadoo实战:Hadoop生态圈组件介绍

Hadoo实战:Hadoop生态圈组件介绍

Hadoop生态圈组件介绍 Hadoop生态图,家族产品,通俗地说,就是Hadoop核心模块和衍生的子项目。常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Ha……

大数据概念

大数据概念

数据类型 结构化数据(structured data):RDBMS 传统的关系型数据库中的表通常由一个或多个字段组成,每个字段都预先定义了其可存储数据的格式及约束等,这类的数据就是结构化数据(structured data)一个设计良好的数据库在其schema中定义这些格式或约束,并由相应的RDBMS为这些提供实现保证相应地。 半结构化数据(semi-……