分享一点基本代码【石桥镇中吧】

简答题大大纲
Zookeeper选举机制的类型
Zookeeper选举机制有两种类型，分别为全新集群选举和非全新集群选举，下面分别对两种类型进行详细讲解
1、全新集群选举（考试重点）
全新集群选举是新搭建起来的，没有数据ID和逻辑时钟来影响集群的选举。假设，目前有5台服务器，他们的
编号分别是1
~
5，按编号依次启动Zookeeper服务。下面来讲解全新集群选举的过程。
步骤1：
服务器1启动，首先，会给自己投票；其次，发投票信息，由于其他机器还没有启动所以它无法接收到投票反馈信
息，因此服务器1的状态
一
直属于LOOKING状态。
步骤2：
服务器2启动，首先，会给自己投票；其次，在集群中启动Zookeeper服务的机器发起投票对比，这时它会与服务器
1交换结果，由于服务器2的编号大，所以服务器2胜出，此时服务器1会将票投给服务器2，但此时服务器2的投票数
并没有大于集群半数（2 < 5/2)，所以两个服务器的状态依然是LOOKING状态。
步骤3：
服务器3启动，首先，会给自己投票；其次，与之前启动的服务器1和服务器2交换信息，由于服务器3的编号最大，
所以服务器3胜出，那么服务器1和2会将票投给服务器3，此时投票数正好大于半数（3 > 5/2），所以服务器3成为
领导者状态，服务器1和2成为追随者状态。
步骤4：
服务器4启动，首先，会给自己投票；其次，与之前启动的服务器1、2和3交换信息，尽管服务器4的编号大，但是
服务器3已经胜出。所以服务器4只能成为追随者状态。
步骤5：
服务器5启动，同服务器4
一
样，均成为追随者状态。
2、非全新集群选举
对于正常运行的Zookeeper集群，
一
旦中途有服务器宕机，则需要重新选举时，选举的过程中就需要引人服务
器ID、数据ID和逻辑时钟。这是由于Zookeeper集群已经运行过
一
段时间，那么服务器中就会存在运行的数
据。下面来讲解非全新集群选举的过程
步骤1：
首先，统计逻辑时钟是否相同，逻辑时钟小，这说明途中可能存在宕机问题，因此数据不完整，那么该选举结果被
忽略，重新投票选举；
步骤2：
其次，统
一
逻辑时钟后，对比数据ID值，数据ID反映数据的新旧程度，因此数据ID大的胜出；步骤3：
如果逻辑时钟和数据ID都相同的情况下，那么比较服务器ID（编号），值大则胜出；
简单地讲，非全新集群选举时是优中选优，保证Leader是Zookeeper集群中数据最完整，最可靠的
一
台服务器
写出五个组件
Hadoop（也可以写HDFS、Mapreduce、Yarn。这里就包含了三点）
Hive
Flume
Sqoop
Hbase
Spark
Fink
ZooKeeper
Flume运行机制（8分）
Flume的核心是把数据从数据源（如Web Server）通过数据采集器（Source）收集过来，再将收集的数据通过缓冲
通道（Channel）汇集到指定的接收器（Sink）。这里可以参考官方的架构图，具体展示Flume运行机制，如图
从图中可以看出，Flume基本架构中有
一
个Agent（代理），它是Flume的核心角色，Flume Agent是
一
个JVM进
程，它承载着数据从外部源流向下
一
个目标的3个核心组件；Source、Channel和Sink。对着3个重要组件进行说
明，具体如下：
Source（数据采集器）：用于源数据的采集（如图，从
一
个Web服务器采集源数据），然后将采集到的数据写入
到Channel中并流向Sink；
Channel（缓冲通道）：底层是
一
个缓冲队列，对Source中的数据进行缓存，将数据高效、准确地写入Sink，待数
据全部到达Sink后，Flume就会删除该缓存通道中的数据；
Sink（接收器）：接收并汇集流向Sink的所有数据，根据需求，可以直接进行集中式存储（如图，采用HDFS进
行存储），也可以作为数据源传入其他远程服务器或者Source中。在整个数据传输的过程中，Flume将流动的数据封装到
一
个event（事件）中，它是Flume内部数据传输的基本
单元。
一
个完整的event包含headers和body，其中headers包含了
一
些标识信息，而body中就是Flume收集到的数
据信息。
Flume配置采集方案（12分）
因为Flume要采集数据的类型和源头多种多样，并且根据开发需求还要进行不同类型的数据传输和汇总。为此，
根据实际业务需求，Flume专门设计了匹配不同数据类型和传输要求的Flume Source、Flume Channel和Flume Sink。
为了正确地使用Flume对数据进行采集，就必须编写适合开发者需求的Flume采集方案，接下来就编写
一
个采集
netcat（用于TCP/UDP连接和监听的Linux工具，主要用于网络传输及调试领域）源数据的采集方案，如下：
接下来，先对文件编写的采集方案进行说明，具体如下：
1. 采集方案的名称可以自定义，但为了方便管理和使用，通常会根据数据源类型和收集的结果类型进行命名。如
netcat
-
logger.conf表示采集netcat类型数据源并最终作为logger日志信息收集
2. 采集方案文件的位置可以自定义存放、在使用的时候会要求指定配置方案的具体位置，为了更方便统
一
管理，通
常会将采集方案统
一
存放。在本案例中，会将所有自定义的采集方案文件保存在/export/servers/flume/conf目录
下。
3. 采集方案中的sources、channels、sinks是在具体编写时根据业务需求进行配置的，不能随意定义。Flume支持采
集的数据类型可以通过查看官网详细了解（地址http://flume.apache.org/FlumeUserGuide.html),同时针对不同的
sources type、channels type和sinks type需要编写不同的配置属性。
# 实例配置方案：单节点Flume配置
# 定义Agent中各个组件名称
# 其中该Agent名为 a1,source名为r1,sinks名为k1,channels名为c1
a1.sources
=r1
a1.sinks
=k1
a1.channels
=
c1
# 描述并配置sources组件（数据源类型，采集数据源的应用地址）
a1.sources.r1.type
=netcat
a1.sources.r1.bind
=localhost
a1.sources.r1.
port
=44444
# 描述并配置sinks组件（采集后的数据流出的类型）
a1.sinks.k1.type
=logger
# 描述并配置channels（缓存类型、内存缓存大小和事务缓存大小）
a1.channels.c1.type
=memory
a1.channels.c1.capacity
=1000
a1.channels.c1.transactionCapacity
=100
# 将source和sink通过同
一
个channel连接绑定
a1.sources.r1.channels
=
c1
a1.sinks.k1.channel=
c1Python API上传文件到HDFS
还有
一
个不知道是啥？
import pyhdfs
# 文件上传
def upload_file_to_hdfs(client,path_local,path_hdfs):
try:
client.copy_from_local(path_local,path_hdfs)
print(
"
success
"
)
except IOError:
print(
"
Error：查找文件或读取文件失败
"
)
else:
print(
"
writer success
"
)

1、以下选项中，哪个程序负责HDFS数据存储。 (B)
A、NameNode
B、DataNode
C、Secondary NameNode
D、ResourceManager
2、下列哪项通常是集群的最主要的性能瓶颈？(C)
A、CPU
B、网络
C、磁盘
D、内存
3、下面哪项是Hadoop的作者？(B)
A、Martin Fowler
B、Doug cutting
C、Mark Elliot Zuckerberg
D、Kent Beck
4、HDFS默认备份数量？(D)
A、0
B、1
C、2
D、3
5、下列描述说法错误的是？ (D)
A、SecureCRT是一款支持SSH的终端仿真程序，它能够在Windows操作系统上远程连接Linux服务器执行操作。
B、Hadoop是一个用于处理大数据的分布式集群架构，支持在GNU/Linux系统
以及Windows系统上进行安装使用。
C、VMware Workstation是一款虚拟计算机的软件，用户可以在单一的桌面上
同时操作不同的操作系统。
D、 SSH是一个软件，专为远程登录会话和其他网络服务提供安全性功能的软
件。
6、配置Hadoop集群时，下列、、、哪个Hadoop配置文件需要进行修改？(C)
hadoop-env.sh
profile
core-site.xml
ifcfg-eth0
A、、、
B、、、
C、、
D、、、、
7、Hadoop2.x版本中的数据块大小默认是多少？(B)
A、64M
B、128M
C、256M
D、512M
8、关于Secondary NameNode哪项是正确？(C)
A、它是 NameNode 的热备
B、它对内存没有要求
C、它的目的是帮助 NameNode合并编辑日志，减少NameNode启动时间
D、SecondaryNameNode 应与NameNode部署到一个节点
9、MapReduce适用于（D）
A、任意应用程序
B、任意可以在Windows Server 2008上的应用程序
C、可以串行处理的应用程序
D、可以并行处理的应用程序
10、下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是（A）
A、一个Map函数就是对一部分原始数据进行指定的操作。
B、一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。
C、Map与Map之间不是相互独立的。
D、Reducee与Reduce之间不是相互独立的。

11、MapReduce自定义排序规则需要重写下列那项方法（B）
A、readFields()
B、 compareTo()
C、 map()
D、reduce()
12、Zookeeper启动时会最多监听几个端口（2）
A、1
B、2
C、3
D、4
13、下列哪些操作可以设置一个监听器Watcher（4）
A、getData
B、getChildren
C、exists
D、setData
14、下列关于zookeeper描述正确的是：（a）
A、无论客户端连接的是哪个Zookeeper服务器，其看到的服务端数据模型都是一致的
15、下列选项中那些是Hadoop2.x版本独有的进程（c）
A、JobTracker
B、TaskTracker
C、NodeManager
D、NameNode
16、下列选项描述错误的是？a
A、Hadoop HA即集群中包含Secondary NameNode作为备份节点存在。
B、ResourceManager负责的是整个Yarn集群资源的监控、分配和管理工作
C、NodeManager负责定时的向ResourceManager汇报所在节点的资源使用情况以及接收并处理来自ApplicationMaster的启动停止容器（Container）的各种请求。
D、初次启动Hadoop HA集群时，需要将格式化文件系统后的目录拷贝至另外一台NameNode节点上。
B、从同一个客户端发起的事务请求，最终将会严格按照其发起顺序被应用到zookeeper中
C、在一个5个节点组成的Zookeeper集群中，如果同时有3台机器宕机，服务不受影响
D.、如果客户端连接到Zookeeper集群中的那台机器突然宕机，客户端会自动切换连接到集群其他机器
17、下列选项中那些是Hadoop2.x版本独有的进程（c）
A、JobTracker
B、TaskTracker
C、NodeManager
D、NameNode
18、下列选项描述错误的是？A
A、Hadoop HA即集群中包含Secondary NameNode作为备份节点存在。
B、ResourceManager负责的是整个Yarn集群资源的监控、分配和管理工作
C、NodeManager负责定时的向ResourceManager汇报所在节点的资源使用情况以及接收并处理来自ApplicationMaster的启动停止容器（Container）的各种请求。
D、初次启动Hadoop HA集群时，需要将格式化文件系统后的目录拷贝至另外一台NameNode节点上。
19、下面说法选项错误的是（ad）
A、在一个Agent中，同一个source可以有多个channel
B、在一个Agent中，同一个sink可以有多个channel
C、在一个Agent中，同一个source只能多1个channel
D、在一个Agent中，同一个sink只能有1个channel
20、下列、、、选项中是配置job的必要参数（13）
、type
、dependencies
、command
、flow.name
A、、、
B、、、
C、、
D、、、、

下列、、、选项中是配置job的必要参数（13）
、type
、dependencies
、command
、flow.name
A、、、
B、、、
C、、
D、、、、
22、下列语句描述错误的是（c）
A、可以通过CLI方式、Java API方式调用Sqoop
B、Sqoop底层会将Sqoop命令转换为MapReduce任务，并通过Sqoop连接器进行数据的导入导出操作。
C、Sqoop是独立的数据迁移工具，可以在任何系统上执行。
D、如果在Hadoop分布式集群环境下，连接MySQL服务器参数不能是localhost或127.0.0.1。

[root@localhost ~]# //root：用户名；localhost：主机名；~（/）：当前工作目录（根目录）；#（$）：超级管理员（一般管理员）
结构 //
自动提示/补全 //输入后敲两下 tal
//基本命令
clear //清屏
ls //列出当前路径的文件以及文件夹P39表2-2
pwd //查找当前文件或文件夹所在路径
cd . // 切换至当前目录
cd .. // 切换至当前目录的上一级目录
cd - // 切换至上次所在目录
cd ~ // 切换至当前登录用户的主目录
cd ~root // 切换指定用户的主目录
//文件/文件夹的操作
cat 文件 //查看文件内容P40表2-4
cat -n 文件 //查看文件内容（行号）
head -n 2 文件 //查看文件内容（前2行）
head -c 2 文件 //查看文件内容（前2个字节）
tail -n 2 文件 //查看文件内容（后2行）
tail -c 2 文件 //查看文件内容（后2个字节）
wc 文件 //统计文件的行数等P43表2-6
more 文件 //翻页查看文件内容
less 文件 //more的加强版
touch 文件 //创建文件P44页表2-7
mkdir 文件夹 //创建文件夹P45页表2-8
rm 文件夹 //删除文件夹P49页表2-11
mkdir -p 多层文件夹 //创建多层文件夹
rmdir 文件夹 //删除文件夹P45页表2-8
cp -r 源文件目标文件 //复制文件/文件夹
mv 源文件目标文件 //剪切文件/文件夹
rm -r 文件/文件夹 //删除文件/文件夹P49表2-11
ps -f -u 用户名 //查看进程 P50表2-12
top -u 用户名 //查看进程（3秒刷新）
kill [PID] //结束进程
命令 > 文件 //输出重定向
bc < 文件 //输入重定向
bc < 文件1 >文件2 //执行文件1输出到文件2
find 目录 - name 文件/文件夹部分名称* //查看目录下文件/文件夹P54表2-14
find -size +xxk //查看文件/文件夹大小在xx内的
grep -n xx 文件 //查看文件的内容包含xx的位置
grep -n -v xx 文件 //查看文件的内容不包含xx的位置
shutdown -h now //立即关闭linux
shutdown -h xx:xx //特定时间关闭
shutdown -r +xx /分钟后重启
history //查看历史使用过的命令
！历史命令的行号 //直接执行该命令
上下箭头可以逐个查看历史命令
man 命令的关键字 //查看命令的用法
vim 文件名 //进入文件的编辑模式
按i键 //文件的插入模式（可以对文件进行写功能）
按esc键 //退出插入模式
按：然后分别按wq //保存并退出
lsblk -p //查看磁盘分区
parted /dev/sda print //查看分区类型
1.fdisk /dev/sda 2.n 3.part 4 4.w //新建分区
1.fdisk /dev/sda 2.d 3.part 4 4.w //删除分区
mkfs - t xfs /dev/sda4 //格式化分区
1.新建目录mkdir /mnt/file1 2.mount /dev/sda4 /mnt/file1 //把sda4分区挂载到file1下
方法1 umount /dev/sda4 方法2 umount /mnt/file //卸载分区的挂载
df //文件系统的空间使用情况P85表3-2
du //计算目录或文件所占的磁盘空间大小P87表3-3
ln f1 f2 //为f1创建硬链接f2（f1删除后f2不变）
ln f1 f3 //为f1创建软链接f3（f1删除后f3也随之改变）
tar –cvf 压缩的名称源文件 // 压缩
tar –xvf 源压缩文件 // 解压
cat /etc/passwd //查看用户配置文件
cat /etcadow //查看用户配置文件
cat /etc/group //查看用户组配置文件
useradd 用户名 //创建用户 P96表3-6
passwd 用户名 //为用户设置密码 P97表3-7
usermod ... //修改用户 P98
userdel ... //删除用户 P98
group 组名 //创建组
groupmod .. //修改组
groupdel ... //删除组
id 用户名 //查看用户的信息
usermod -G 组名用户名 //把用户修改到某个组中
groupmems ... 把用户添加到或移出用户组P100
su - 用户名 //切换用户
passwd -S 用户 //显示用户密码信息

电脑现在就是潜力最大的一项，把电脑学成前景特别大，也可以去一些相关的xx看看，可以提高你学习的效率，加油

日	一	二	三	四	五	六

分享一点基本代码

扫二维码下载贴吧客户端