实战 | 分布式DNS在金融多活『数据中心』的实践(分布式id作用)

文/中国光大银行 李刚 张林 史乐萌

当前,金融机构逐步向多『数据中心』架构演进,多中心流量调度、灾备切换敏捷性等业务连续性保障能力变得至关重要。实现业务流量在多『数据中心』间的精准调度、在灾难情况下快速恢复业务,已成为金融行业的核心诉求,『域名解析』系统(DNS)是实现这一诉求的核心支撑。如今,DNS系统已由传统的“域名到IP地址的简单映射”转变为『数据中心』流量管理和调度的关键枢纽,近年来频发的DNS故障引发了金融行业多起大面积网络瘫痪及业务中断事件,影响重大。因此,防范『域名解析』系统故障带来的风险,完善其高可用架构、容灾机制和应急预案已成为『数据中心』技术团队的核心关注点。对此,中国光大银行针对DNS系统面临的问题和挑战,经过持续的探索实践,成功构建了一套低耦合、高冗余、职责分离、自主可控、安全的内网分布式『域名解析』系统。

架构设计:分层解耦与分布式部署

基于我行『数据中心』规模,从健壮性和容量的角度考虑,对各层角色进行解耦并独立异构部署,采用根、权威、递归『服务器』分角色部署的方案。分层解耦架构设计示例如图1所示。

各角色(根、权威、递归)『服务器』跨『数据中心』分布式部署、单中心采用集群部署模式,可有效规避『数据中心』DNS的单点故障风险,提供『数据中心』级的冗余能力。多级授权,使各级权威『服务器』可通过增加授权进行平滑的横向扩容。子域权威『服务器』可授权给需要域名自主权的系统自行管理,如全栈云、内网CDN平台等。递归『服务器』采用办公和生产的独立的方式进行部署,分别为办公终端和生产『服务器』提供『域名解析』服务,办公递归『服务器』引入不同信创产品和非信创产品进行异构部署。除此以外,我行递归『服务器』采用『负载均衡』集群部署,为递归『服务器』提供负载分担、横向扩展、健康检查、安全防护、异构部署能力等多项优势。

域名规划:动静分离与租户隔离

1. 动静分离

静态域名:仅做域名与IP绑定,资源消耗低。

动态域名:主要依赖于智能解析的功能(如根据位置/健康状态选择解析IP)实现『负载均衡』或灾备切换,但动态域名会消耗更多解析资源(健康检查、算法)。此类域名(如CDN、多AZ云等)独立专用子域部署,避免成为性能瓶颈。

2. 租户分级

独立的机构域名建议使用独立的子域,比如分行、信用卡💳️或者子公司,后续如果出现单机构业务发展过快或者管理架构调整的情况,可以方便进行独立拆分。

核心策略:提升解析性能,确保安全稳定

内网『域名解析』系统的分布式改造策略设计聚焦于提升解析性能、确保业务连续性和增强安全性。

1. 智能解析机制

智能解析机制的核心是依据用户源地址和健康检查状态返回最优IP,即实现“近源访问”效果。我行在各『数据中心』分别部署递归『服务器』,权威『服务器』基于请求源(即递归『服务器』地址),根据其所属『数据中心』返回就近服务IP,减少跨中心流量,提升解析效率。同时结合健康检查,可实现故障应用的『域名解析』地址自动切换。递归『服务器』可按需在非关键或无“近源访问”需求的网络区域,进行低成本部署或复用其他递归『服务器』。

2. 缓存机制

在『域名解析』系统架构的设计中,缓存策略的设计直接影响『域名解析』系统的整体性能。递归『服务器』启用缓存后,缓存时间内,递归『服务器』不再将请求转发给权威『服务器』解析,而是将缓存的结果直接返回给用户,不仅大大缓解了权威『服务器』的访问压力,也提高了『域名解析』的速度。

图4 缓存机制示例

综合分析『域名解析』系统的整体性能和大部分应用系统的需求,设计通用TTL时间提高应用需求的沟通成本,以健康检查失败超时30秒,TTL时间60秒为基础配置,基本实现大部分应用系统需求。

3. 『域名解析』时延优化

『域名解析』过程作为发起应用访问过程中的第一步,其带来的时延,可能影响整个应用系统的访问体验感。影响主要区分于应用连接类型:长连接应用,则连接建立后无需重复解析,时延影响小;短连接高频应用,则客户端访问本地递归『服务器』,缓存过期时短暂时延增加。

我行针对上述问题的解决方案是为时延敏感业务在递归『服务器』开启缓存刷新功能,缓存到期后递归『服务器』主动对时延敏感应用系统域名发起解析请求,从而刷新缓存,降低时延,提高访问效率。

4. 容灾策略

容灾策略主要从架构、负载、产品异构、性能四个方面实现。

架构容灾:根和权威『服务器』均实现分布式部署,单点故障无全局影响。

负载容灾:递归『服务器』采用『负载均衡』(LB)集群部署模式,LB具备健康检查能力,能自动隔离失效的递归节点,保障自身高可用性。

性能级容灾:系统设计整体性能容量满足未来五年的发展需求,通过开启递归『服务器』缓存极大降低权威『服务器』的性能压力,当出现权威『服务器』性能压力过大等紧急情况,可实现直接关闭智能解析,降低智能解析占用的『服务器』性能,采用静态解析方式提供域名服务。

域名安全设计:全面部署威胁防护

我行针对DNS flood攻击、DNS污染和隐蔽隧道等威胁部署以下防护措施:

1. DNS flood攻击防护

建立『域名解析』日志与流量双重监控机制,实时检测突发查询量。可精准定位发起客户端及被访问域名,定位后,可通过关停异常客户端或调整域名TTL等方式完成处置。

图5 监控视图

2. DNS污染防御

在递归『服务器』启用防DNS投毒功能:迭代查询时强制使用随机大小写的域名字符串,使攻击者难以伪造响应报文,有效阻断缓存中毒攻击。

3. DNS隐蔽隧道管控

严格隔离内网与『互联网』的DNS解析环境,内网无法解析外部域名,天然规避隧道风险。『互联网』边界部署额外控制策略,防范数据外泄。

4. 补充关键措施

关闭DNS的TCP 53端口。该端口通常用于大报文传输,但日常解析无需此协议。关闭后可直接阻断利用TCP协议实施的隐蔽隧道攻击和恶意『域名解析』,加强边界防护。

内网『域名解析』系统(DNS)日均承载金融机构上亿次关键解析请求,是业务连续运行的核心命脉。DNS的深度应用确保在故障场景下实现30—60秒自动切换,有效规避因DNS单点故障引发的大面积业务中断,实现交易无感持续进行,确保金融机构服务永不掉线,维护社会金融秩序稳定。作为金融行业公共基础设施的关键环节,DNS系统的韧性大幅降低了因基础设施故障导致的社会服务中断风险。同时,通过多重安全加固措施,从源头杜绝数据泄露与攻击影响,为金融关键信息基础设施的安全防护提供了坚实保障。

特别声明:[实战 | 分布式DNS在金融多活『数据中心』的实践(分布式id作用)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

任天堂Switch充电全攻略!这几招让电池更耐用(任天堂switch充电宝选择)

长期不用也要管:如果计划几个月不玩Switch,最好将电量维持在50%左右再关机存放,并且每半年左右拿出来充一次电,避免电池过度放电损坏。原装充电器是首选,第三方要挑PD快充大功率;随用随充,避免极端电量;…

任天堂Switch充电全攻略!这几招让电池更耐用(任天堂switch充电宝选择)

外交部:坚决反对美政客指手画脚 涉华言论谬论连连

针对美国国会众议院“中国特设委”主席莫伦纳近日访问中美洲国家时发表的涉华言论,外交部发言人郭嘉昆在1月26日的例行记者会上表示,中方坚决反对美国个别政客对中美洲国家同中国的正常交往指手画脚

外交部:坚决反对美政客指手画脚 涉华言论谬论连连

离婚8年后,官宣喜讯的『黄景瑜』,已成王雨馨高攀不起的模样?(离婚八年小说)

对于演员来说,去太空或许会是一次别具一格的体验积淀,但对公众而言,这一事件打破了只有专业航天员才能探索太空的传统认知,令人眼前一亮。 从王雨馨自杀未遂的消息,到两人离婚后的纷争,再到『黄景瑜』不断澄清的声明,…

离婚8年后,官宣喜讯的『黄景瑜』,已成王雨馨高攀不起的模样?(离婚八年小说)

正宗安徽黄山腊味礼盒适合送给亲朋好友吗?2026年新春送礼必备!(黄山腌腊制品企业)

腊味礼盒是新春佳节送亲友的热门选择。本文深入分析正宗安徽黄山五花腊肉香肠的特点,帮您挑选合适规格和价格的腊味年货大礼包。了解选购技巧、注意事项,助您轻松应对送礼难题。

正宗安徽黄山腊味礼盒适合送给亲朋好友吗?2026年新春送礼必备!(黄山腌腊制品企业)

刘强东拿下中兴大单(刘强东拿下中兴是哪一年)

京东方面也明确表示,将全力发挥供应链、全渠道、技术等核心优势,助力中兴通讯稳步达成三年百亿销售目标,携手实现生态共赢。 在这套系统中,京东整合了物流、金融、AI技术及线下门店等全链路资源,为中兴通讯这类技术…

刘强东拿下中兴大单(刘强东拿下中兴是哪一年)