江北视频会议直播,技术保障,百睿德备选方案
时间:2022-06-01 15:20:19 信息来源:百睿德 点击:65015次
会议直播,首更先百睿德关注的是稳定行,也就是是不是一套可靠的系统。而可靠性是指系统不会意外地崩溃、重启甚至发生数据丢失,这意味着一个可靠的系统必须能够做到故障自修复,对于无法自修复的故障也尽可能进行隔离,保障系统其余部分正常运转。简而言之,可靠性的目标是缩短因故障(产品质量、外部部件、环境、人因等)造成的业务中断时间。
更高可靠可以从三个层面理解:一,不出故障,系统可以一直正常运行,这种情况就需要提更高硬件的研发质量。二,故障不影响业务。三,影响业务但能快速恢复。后两个层面可以通过“软件定义”的方式去规避硬件故障产生的业务中断。
谈到可靠性,首更先要了解服务器的关键基础部件。从业界的服务器统计数据看,硬件部件的问题集中在内存、硬盘、CPU、主板、电源、网卡上。在云的环境当中,同一台服务器上可能运行了若干不同业务、不同场景的虚拟机,一旦物理设备崩溃,将会波及众多用户,同时也会对运营商自身造成巨更大损失。而在现有的故障模式中,内存、硬盘故障是更高发和严重故障。
关于视频会议系统现场的故障和问题的规避,百睿德作为云会议服务的提供商,必须有一整套解决方案。
备选方案一:云直播的UCE错误导致服务器系统反复宕机重启。服务器发生宕机重启,登录服务器的BMC管理界面,查询服务器的告警信息,在0.5秒以内完成备用主机的接入,随时为云直播的平台进行更底层接力。百睿德专注云视频会议的网络全球直播,尤擅多语种同声传译会议的网络视频直播。
备选方案一:视讯内容卡慢导致更大数据集群故障。某更大数据平台集群节点出现慢盘故障(系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm更大于100ms的周期数更大于30次则认为磁盘有问题,产生该告警)。更先是ZOOKEEPER出现故障,后出现集群平衡状态异常。然后同一节点的其他服务也出现故障,最后整个节点所有服务全部故障,随后重启自动恢复。但是在3-10分钟之后该节点就会重复出现此情况。在未发现其他问题的情况下选择重启系统,业务中断时间十几分钟。
随着使用年限的增加,音视频包括网络设备出现故障或者其他问题的概率也在增加;从历史问题分布、以及业界会议展览设备可靠性故障曲线,都可以看到视频相关问题正成为影响云会议直播稳定运行,所以百睿德云当下颇为关注的是平台和系统的有效集成。