Lite HA 3.0

 

概述

   LiteHA 3.0是北京神州天勤软件技术有限公司推出的为满足企业级关键应用的高可用产品。它提供的双机高可用方案能够更好的满足用户业务的连续性、更加可靠,可以昼夜不停地提供24x7的服务;并且能够满足不同应用对高可用的要求

2006年开始,北京神州天勤软件技术有限公司着手自主研发高可用系列产品——Skyge HALiteHA 3.0是在以往产品的基础上,根据市场的实际需求和企业级用户多年实践经验的总结,依据已有成熟架构的基础开发的。它能够为企业级用户提供更加可靠和可扩展的服务。LiteHA 3.0提供了更好的可靠性和可扩展性,更高的性价比,更好的易用性和可管理性,完全满足企业级应用所要求的RASM(ReliabilityAvailabilityScalabilityManageability)特性。

LiteHA 3.0可支持市场上常见的主流操作系统平台,适用于i386x86_64IA64openpower等主流的硬件平台。做为第三方HA软件,由于LiteHA 3.0可以和主流操作系统更好的配合,使得从操作系统到LiteHA 3.0软件构建的高可用解决方案更加的可靠,并广泛服务于电信、金融、政府等行业客户。


 

LiteHA 3.0功能简介

LiteHA 3.0是专注于企业级关键业务上的高可用性产品,提供高可用性的双机集群系统。当集群中的某个节点由于软件或硬件原因发生故障时,集群会利用资源切换的方法保证整个系统继续对外提供服务,从而为企业24x7的关键业务应用提供了强大的保障。LiteHA 3.0提供对各种应用程序的支持,包括各种数据库应用、中间件、WEB应用等等,而其简便的安装和设置、详细的日志信息,减轻了用户日常的维护工作,其中跨平台的远程管理和监控使得系统具有更灵活的特性。

应用支持

 

当我们通过硬件(服务器、交换机、共享存储等)和软件(操作系统平台、HA系统软件、应用软件等)搭建一个高可用群集环境的时候,首先我们需要明确的是,高可用系统软件能否支持和管理我们的应用程序。LiteHA 3.0能够支持绝大多数的应用程序,支持的典型应用程序类型如下:

通用的,无需修改的应用程序:LiteHA 3.0支持大多数的应用程序,这些应用大多数是能够接受几秒种的停机时间的业务

数据库应用:LiteHA 3.0能够很好的支持各种数据库产品,包括OracleMySQLSybaseIBM DB2数据库

各种文件服务:LiteHA 3.0能够为各种类型的文件服务提供高可用集群功能,如NFSSMB/CIFS (使用Samba)

主流的商业应用软件:LiteHA 3.0能够很好的支持主流的商业应用软件,如SAPOracle Application ServerTuxedoWebSphere

互联网和开放源代码的应用:LiteHA 3.0可以很好的支持各种流行的互联网应用软件和各种开放源代码产品,如ApacheWu-ftpvsftp

邮件服务软件:如SendmailPostfix

LiteHA 3.0的技术特点

支持磁盘镜像功能

 

磁盘镜像功能,是一种不需要磁盘阵列的双机数据共享方案。它的基本原理是通过对两个节点各自的本地磁盘分区进行实时镜像操作,使得这两个本地磁盘对双方节点而言,可以当作一个虚拟的共享磁盘设备来使用。这个虚拟的RAID-1级别的共享磁盘设备能够作为应用的共享设备,既可以当作共享的裸设备来使用,也可以在其上创建各种Linux文件系统。LiteHA 3.0本身提供磁盘镜像功能,使得共享数据的应用不需要磁盘阵列也能够搭建双机高可用方案。

多种硬件心跳保证系统一致性

 

LiteHA 3.0同时支持直连网线、串口线来同步HA两个节点之间的心跳信息。可同时支持多条直连网线和串口线作为通道,提供更高可靠性的硬件冗余方式,以保证两个节点之间不会发生裂脑(Split-brain)现象。即使两节点之间的心跳通道都发生故障,LiteHA 3.0还可以通过配置第三方参考IP的方式,保证两个节点系统的一致性。LiteHA 3.0支持配置多个第三方参考IP,避免了第三方参考IP成为单一故障点。

可靠的故障时切换策略

 

    无论是否配置第三方IP,主节点所有的网络都发生故障时,仍能够保证服务切换到正常的备节点上,不影响对外正常提供服务。

智能的服务回迁以及多服务的负载分担

 

LiteHA 3.0支持优先节点的设置,可以把一些服务设定到指定的优先节点。当优先节点故障时,服务切换到另一个节点;而当优先节点又恢复时,服务会自动迁移到优先节点。这样可以让多个服务分别运行在两个节点上,使得服务的负载可以分担到两个节点上。

可以检测更多的故障

 

LiteHA 3.0能够检测更多的系统故障,从而增强了高可用性集群所提供的可靠性。

故障类型

故障原因

系统故障

硬件错误

系统紊乱

系统软件错误

存储不可访问

存储错误

网络断开

网络错误

集群进程故障

集群软件错误

服务故障

服务应用程序错误

 

应用程序代理检查

 

LiteHA 3.0通过使用应用程序代理检查某一服务是否运行。应用程序代理用于定期检查某一服务是否正常工作。如果服务没有正常运行,则相应地触发一次切换,使服务在另一节点被恢复。LiteHA 3.0提供用于常用服务的应用程序代理,对于自身没有应用程序代理的服务则可以使用LiteHA 3.0提供的接口进行灵活的按需定制。

 

详细的系统故障日志信息

 

LiteHA 3.0采用的日志函数和Linuxsyslogd是一样的方式,在两个节点均有记录,每个守护进程都有自己的日志级别,可以在配置文件中指定。每一条记录的信息,包括有时间、日志级别、进程名称、进程id、消息等内容,这样可以方便用户进行应用故障现场的保护以及故障后的分析定位。

同时日志的级别可以动态进行设置调整,以根据实际需要调整输出日志的信息内容。默认情况下,系统已经将日志级别设置成较为详细的信息输出,包括HA启动、停止过程,HA事件触发原因,服务故障原因,服务切换过程,服务手动操作记录等。

为了更加便于用户在应用故障发生后快速定位故障原因,LiteHA 3.0在图形配置管理界面中,将日志进行了分类提取,分为普通信息、警告信息和错误信息。

LiteHA 3.0高可用功能设计原理

不间断的提供有效、准确的服务是高可用集群软件的设计目标。在保证用户数据完整性的前提下,当系统或服务失效时,及时的将服务切换到正常节点,同时采取必要措施,帮助失败节点能够恢复正常,这就是LiteHA 3.0作为优秀高可用集群软件所提供的功能。

主机及服务

 

LiteHA 3.0设计为双节点集群系统,集群软件同时运行在两台主机上。对于主机上服务的配置,根据用户的需要,可以是一台主机提供服务,另一台主机待命的主动被动模式,也可以是两台主机同时提供不同服务,并且互为备份的主动主动模式。如果用户有两台同样高配置的服务器,并希望提供两种或两种以上的服务,则可以采用主动主动模式以提高系统利用率;如果用户有一台高配置的服务器和一台较低配置的服务器,希望建立高可用性服务,则可以采用主动被动模式,并把服务配置成回切型。

监测

 

LiteHA 3.0对于主机系统级的失败,两台主机间通讯的失败和所提供服务的失败都能进行准确的实时监测。

 

系统及通讯监测

 

任何操作系统,都有出现死机或系统挂起的可能。系统挂起和死机不同,系统挂起时对用户的输入不再有响应,好像被锁住一样,在有些情况下,系统挂起一段时间后,有可能重又继续工作。LiteHA 3.0可以准确的检测到一台主机系统挂起或死机的发生,并把服务切换到正常工作的主机上。

为了监测对等主机的状态, LiteHA 3.0集群在两台主机之间可以建立两种方式的任意多条连接通路,这也被称为心跳Heartbeat)。心跳方式有UDP/IP连接和串行线连接两种。可以使用多块网卡,在两台主机间建立多条点对点的UDP/IP连接。如有多个串行口,则可以建立多条串行连接。

使用两种方式的多条连接,也就是利用冗余的硬件,提高主机间通讯的可靠性。只有当所有心跳通路全部失败时,才认为两主机在通讯上失效,此时LiteHA 3.0会采取及时有效的应对措施。

 

服务监测

 

LiteHA 3.0对于服务的状态也会定时进行监测,监测的时间间隔可由用户指定。LiteHA 3.0提供一个通用应用程序代理,可以对各种服务进行一般性的监测。对于常用类型的服务,还有相应的应用程序代理可以实现具有针对性的服务监测功能。用户也可以自行编写应用程序代理,以满足特殊的需要。

切换

 

LiteHA 3.0检测到一台主机上系统或服务的失败时,正常主机首先会建立I/O屏障,保护共用存储设备上的数据不被失败节点修改。然后,会把故障主机上的服务切换到正常主机上,继续对外提供服务。可以把一个或多个IP地址绑定在服务上,在服务切换时,IP地址也随之切换到正常主机上,所以用户仅仅在服务切换的瞬间能感觉到极短时间的服务暂停。

在服务切换的同时,如果故障主机上集群软件仍在运行,则在检测到I/O屏障后,会把本机重启动,如果重启动后系统恢复正常,则重新加入集群,可以接管服务。这样,即使两台主机都发生故障,只要不在同一时刻发生,集群仍可保证提供服务。

 

系统需求

硬件

支持各种体系,包括IA32EM64T/AMD64IA64Power系列及其兼容的CPU

128MB RAM(推荐采用512MB以上)

  20GB硬盘空间

 网卡:一个或多个100Mb网卡;一个或多个1Gb1Gb以上网卡

软件

集群节点服务器可以是任何主流的操作系统,如Windows20032008CentosSuseRedhat等。