大数据运维系统解决方案

摘要: 国内某客户大数据多套生产和测试集群系统,集群管理上千个节点,容量规模近百PB。大数据并行系统复杂,一个故障的出现往往涉及硬件、网络、操作系统、应用程序、大数据平台和数据规模等综合因素,如此量级的数据,怎么实现优质运维呢?

现状分析

国内某客户大数据多套生产和测试集群系统,集群管理上千个节点,容量规模近百PB。按照系统设计要求设备7*24小时不间断运行,集群规模大、任务多,使服务器硬件和节点异常成为常态,大数据并行系统复杂,一个故障的出现往往涉及硬件、网络、操作系统、应用程序、大数据平台和数据规模等综合因素。如此量级的数据,怎么实现优质运维呢?

数据业务处理流程长,涉及系统多,当业务出现故障,则需要快速排查系统,快速定位和识别相关问题,消除业务与系统之间的断层,持续提升管理与业务分析能力。

集群运维框架

业务问题专题

集群整体宕机;
服务器节点宕机问题;
速度慢问题;
任务失败问题;
任务提交失败问题;
数据节点异常问题;
分配不均衡问题;
数据块丢失问题;
任务停顿问题;
访问速度慢问题;

项目成果

结合客户实际需求,通过长时间维护,了解到集群需要深层优化和改进,针对上面提到的各项问题,整理一套比较完善的解决方案。

红象云腾入围中国大数据企业排行榜

首席数据官联盟发布的2018年《中国大数据企业排行榜》是中国第一份针对国内大数据企业能力的排行榜,从商业应用、行业综合、智慧城市、物联网和平台技术五个维度64个细分领域客观呈现国内大数据行业现状与发展趋势,得到高校、研究机构、政府、企业以及投资界的高度认可。

查看榜单

公司客户