大数据 – 运维那点事

Greenplum数据库文档

聊聊GreenPlum的那些事 Greenplum数据库文档 ……

Hadoop实战：Sqoop 1.4.6安装配置使用

Sqoop简介 Sqoop是一个用于Hadoop和关系型数据库或主机之间的数据传输工具。它可以将数据从关系型数据库import到HDFS，也可以从HDFS export到关系型数据库，通过Hadoop的MapReduce实现。最近在研究数据采集相关的知识，需要用到Sqoop把关系型数据库的数据导入到Hive里。刚开始就使用了Sqoop 1.99版本，用着发……

06-26 立刻查看

Hadoop实战：Sqoop 1.99安装配置

Sqoop介绍 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，特别是hadoop所使用的HDFS分布式文件系统。作为ASF下的一个开源项目，其一开始也只是一个小工具，当然现在也是，还附带一些库供客户端调用。Sq……

06-26 立刻查看

Hadoop实战：Sqoop 1.99把MySQL导数据到HDFS

Sqoop客户端 sqoop2客户端提供各种命令行交互接口，供用户使用。sqoop2客户端先连接Sqoop Server，将参数传递过去，再调用mapreduce进行数据导入到出作业。以下是sqoop2中比较重要的几个对象。 1）connector：sqoop2中预定一了各种里链接，这些链接是一些配置模板，比如最基本的generic-jdbc-connect……

06-21 立刻查看

Hadoop实战：Sqoop 1.99命令使用

一、了解sqoop数据导入的几个重要概念 1）connector：sqoop2中预定了各种链接，这些链接是一些配置模板。 sqoop:000> show connector +------------------------+---------+--------------------------------------……

06-21 立刻查看

Hadoop实战：使用Maxwell将MySQL数据实时同步到HDFS

一、Maxwell介绍 Maxwell是一个守护程序，一个应用程序，能够读取MySQL Binlogs然后解析输出为json。支持数据输出到Kafka中，支持表和库过滤。 → Reference：http://maxwells-daemon.io → Download: https://github.com/zendesk/maxwell/releases/……

06-19 立刻查看

Hadoop实战：Flume输入日志到HDFS报错解决

使用Flume把日志存储到HDFS，在启动时报错如下： 2017-06-16 08:58:32,634 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationProvider$FileWatcherRunnabl……

06-16 立刻查看

Hadoop实战：Hive操作使用

Hive表类型测试内部表数据准备，先在HDFS上准备文本文件，逗号分割，并上传到/test目录，然后在Hive里创建表，表名和文件名要相同。 $ cat /tmp/table_test.csv 1,user1,1000 2,user2,2000 3,user3,3000 4,user4,4000 5,user5,……

06-16 立刻查看

Hadoop实战：Hive安装配置

Hive的介绍 Hive是一个强大的工具。它使用了HDFS，元数据存储（默认情况下是一个 Apache Derby 数据库）、shell命令、驱动器、编译器和执行引擎。它还支持Java数据库连接性 (JDBC) 连接。由于其类似SQL的能力和类似数据库的功能，Hive能够为非编程人员打开大数据Hadoop生态系统。它还提供了外部BI软件，例如，通过 JDB……

06-16 立刻查看

Hadoop实战：Hadoop分布式集群部署（一）

一、系统参数优化配置 1.1 系统内核参数优化配置修改文件/etc/sysctl.conf，使用sysctl -p命令即时生效。 kernel.shmmax = 500000000 kernel.shmmni = 4096 kernel.shmall = 4000000000 kernel.sem = 250 51200……

06-15 立刻查看

Hadoop实战：Hbase分布式集群安装

一、安装Hbase前提条件 1）JDK和HDFS集群已经安装了。 2）打通Mster->Slave的SSH免秘钥登录（安装HDFS时Hadoop用户已经打通）。 3）所有主机的NTP时间要一致（安装HDFS集群时已经设置一致）。 4）ULIMIT和NPROC要调大（安装HDFS集群时已经调整）。 5）安装Zookeeper集群，一个分布式运行的Hbas……

06-15 立刻查看

大数据生态到底是一个什么概念？

大数据这个概念本身就太大而且太宽，如果一定要严格定义是非常困难的一件事，不过Hadoop生态圈或者由其延伸的泛生态系统，基本上都是为了处理大量数据诞生的——一般而言，这种数据依赖单机很难完成。这个圈子里的工具，就像是我们厨房里的各种厨具——各自都有不同的用处，但也有一部分功能重合，比如盆和豌都可以用来喝汤，削皮刀和菜刀都可以用来去皮。但是，盆用来喝汤未免……

05-24 立刻查看