※名词解释
·链
Chain:负责对外算力证明及高度同步。
·算力
Manage:算力调度程序,控制一组算力服务器的运行的进程数。
P1 P2:算力服务器,提供封装数据的算力支持和结果输出。
·证明
WindowPost:Wind证明,半小时一次,主力创收程序。
WinningPost:Winn证明,随机执行,创收程序。
·存储
Worker:存储中间件,一组或多组存储集群的中间件程序,负责保存扇区文件。
Storage:存储集群,负责扇区文件的保存,通常是一组存储集群,一般由10~20台存储服务器组成。
※流程说明
1. 首先我们需要确定日封装量,这是我们规划的基础。
2. 根据IDC的资源情况(算力机、管理机、存储)决定在哪个IDC部署。
3. 根据日封装量确定算力机的数量。
4. 确定算力机的数量后,开始规划链服务器。
5. 规划管理机(Manage)的数量。
6. WinningPost和WindowPost各一台。
7. 根据1月内的封装量确定WindowPost要不要做1主1备还是共用现有备机。
8. 规划存储使用,Worker一般在初次部署的时候,都只会规划1台Worker:
→ 优先选择存储余量大的存储。
→ 优先选择写入挂载次数少的存储。
业务部署
在介绍业务部署之前,必须要先说一下我们用到的工具,一次部署上百台服务器没有工具辅助是不可以能的;在部署之前还需要进行一系列的例行检查和准备。然后才真正开始我们的部署流程,下面从会用到的工具开始逐一介绍:
※工具简介
堡垒机:方便我们对资产进行管理,远程连接和命令分发还有权限控制,是运维工作中必不可少的工具。如果需要了解更多,请自行百度,这里不再详细讲解。
Ansible:Linux下的自动化工具,批量任务执行的不二之选,极大的减少运维人员的工作量。它实现了批量系统配置、批量程序部署、批量运行命令等功能。如果需要了解更多,请自行百度,这里不再详细讲解。
※部署前的准备及检查
·准备项
获取涉及部署所有服务器的IP地址。
编写Ansible的Playbook文档,以便批量初始化和部署应用 。
·检查项
网络情况:所有相关的服务器是否能连接并执行命令。
操作系统版本:程序都是在Ubuntu上编译的,运行环境必须是在Ubuntu上运行才能保证最佳稳定性。
硬件基本配置:会不会有掉盘掉显卡或者CPU没有开启超线程等异常情况。
存储是否能正常访问。
·部署细节
链程序-Chain
部署完成以后一定要记得导入钱包。
算力-Manage
Ø封装的扇区分为32G和64G,在配置的时候需要特别注意。
PreCommit(P1 P2)
同一个Manage集群下的显卡型号是否一致。
证明程序-WinningPost和WindowPost
存储目录是否正常挂载。
存储-Worker
启动前检查存储的挂载情况,需要挂载后在启动脚本中修改相关配置,再启动程序脚本,需要根据集群规模和Worker服务器的网络带宽来确定运行几个进程。
部署质量验证
※链程序运行情况
1. 检查链高度是否能正常同步。
2. 检查是否能正常生成api和token。
3. 检查日志,看是否报错。
4. 检查Keepalived和Proxy是否工作正常。
5. 检查钱包是否导入。
※算力运行情况
1. 检查是否有关联账户。
2. 检查日志是否有异常报错。
3. 当第一轮扇区任务到Commit2阶段时,查看日志是否有报错。
4. 查看算力机是否有任务失败。
5. 检查PreCommit2和Commit2是否上链。
※证明程序运行情况
1. 查看是否关联账户。
2. 检查存储的挂载情况。
3. 查看Winn和Wind日志是否有异常。
4. 在有扇区完成后,进行Wind预做,查看是否能正常证明算力。
5. 有效算力达到40T后,查看Winn是否有包块和包块后是否上链。
※存储运行情况
1. 检查Worker日志是否有报错信息。
2. 查看存储目录是否有扇区文件。
3. 传输带宽是否正常。
结尾
Filecoin复杂的证明系统和经济模型要求集群需要7*24小时不间断运转,一旦集群出现故障将会面临着算力丢失或罚没的风险。通过优化升级提高集群的效率和稳定性,保证Filecoin网络的稳定和长久。根据设备磁盘容量、CPU性能、内存大小等配置的不同,进行合理化的搭配,以实现多角色程序顺利且持续的运行,通过工具化、流程化的作业方式,充分发挥Filecoin硬件设备的性能。联系+V:sumelon516
·链
Chain:负责对外算力证明及高度同步。
·算力
Manage:算力调度程序,控制一组算力服务器的运行的进程数。
P1 P2:算力服务器,提供封装数据的算力支持和结果输出。
·证明
WindowPost:Wind证明,半小时一次,主力创收程序。
WinningPost:Winn证明,随机执行,创收程序。
·存储
Worker:存储中间件,一组或多组存储集群的中间件程序,负责保存扇区文件。
Storage:存储集群,负责扇区文件的保存,通常是一组存储集群,一般由10~20台存储服务器组成。
※流程说明
1. 首先我们需要确定日封装量,这是我们规划的基础。
2. 根据IDC的资源情况(算力机、管理机、存储)决定在哪个IDC部署。
3. 根据日封装量确定算力机的数量。
4. 确定算力机的数量后,开始规划链服务器。
5. 规划管理机(Manage)的数量。
6. WinningPost和WindowPost各一台。
7. 根据1月内的封装量确定WindowPost要不要做1主1备还是共用现有备机。
8. 规划存储使用,Worker一般在初次部署的时候,都只会规划1台Worker:
→ 优先选择存储余量大的存储。
→ 优先选择写入挂载次数少的存储。
业务部署
在介绍业务部署之前,必须要先说一下我们用到的工具,一次部署上百台服务器没有工具辅助是不可以能的;在部署之前还需要进行一系列的例行检查和准备。然后才真正开始我们的部署流程,下面从会用到的工具开始逐一介绍:
※工具简介
堡垒机:方便我们对资产进行管理,远程连接和命令分发还有权限控制,是运维工作中必不可少的工具。如果需要了解更多,请自行百度,这里不再详细讲解。
Ansible:Linux下的自动化工具,批量任务执行的不二之选,极大的减少运维人员的工作量。它实现了批量系统配置、批量程序部署、批量运行命令等功能。如果需要了解更多,请自行百度,这里不再详细讲解。
※部署前的准备及检查
·准备项
获取涉及部署所有服务器的IP地址。
编写Ansible的Playbook文档,以便批量初始化和部署应用 。
·检查项
网络情况:所有相关的服务器是否能连接并执行命令。
操作系统版本:程序都是在Ubuntu上编译的,运行环境必须是在Ubuntu上运行才能保证最佳稳定性。
硬件基本配置:会不会有掉盘掉显卡或者CPU没有开启超线程等异常情况。
存储是否能正常访问。
·部署细节
链程序-Chain
部署完成以后一定要记得导入钱包。
算力-Manage
Ø封装的扇区分为32G和64G,在配置的时候需要特别注意。
PreCommit(P1 P2)
同一个Manage集群下的显卡型号是否一致。
证明程序-WinningPost和WindowPost
存储目录是否正常挂载。
存储-Worker
启动前检查存储的挂载情况,需要挂载后在启动脚本中修改相关配置,再启动程序脚本,需要根据集群规模和Worker服务器的网络带宽来确定运行几个进程。
部署质量验证
※链程序运行情况
1. 检查链高度是否能正常同步。
2. 检查是否能正常生成api和token。
3. 检查日志,看是否报错。
4. 检查Keepalived和Proxy是否工作正常。
5. 检查钱包是否导入。
※算力运行情况
1. 检查是否有关联账户。
2. 检查日志是否有异常报错。
3. 当第一轮扇区任务到Commit2阶段时,查看日志是否有报错。
4. 查看算力机是否有任务失败。
5. 检查PreCommit2和Commit2是否上链。
※证明程序运行情况
1. 查看是否关联账户。
2. 检查存储的挂载情况。
3. 查看Winn和Wind日志是否有异常。
4. 在有扇区完成后,进行Wind预做,查看是否能正常证明算力。
5. 有效算力达到40T后,查看Winn是否有包块和包块后是否上链。
※存储运行情况
1. 检查Worker日志是否有报错信息。
2. 查看存储目录是否有扇区文件。
3. 传输带宽是否正常。
结尾
Filecoin复杂的证明系统和经济模型要求集群需要7*24小时不间断运转,一旦集群出现故障将会面临着算力丢失或罚没的风险。通过优化升级提高集群的效率和稳定性,保证Filecoin网络的稳定和长久。根据设备磁盘容量、CPU性能、内存大小等配置的不同,进行合理化的搭配,以实现多角色程序顺利且持续的运行,通过工具化、流程化的作业方式,充分发挥Filecoin硬件设备的性能。联系+V:sumelon516