当前位置:首页 > 通信技术 > 通信技术
[导读]此次事件反应出支付宝在故障倒换能力和应急反应速度上还有待提高,反应出互联网公司在应急处理能力上的普遍短板,互联金融系统的运行稳定性并不如此前所宣称那样完善。5月27日下午5点,拥有将近3亿活跃用户的支付宝出

此次事件反应出支付宝在故障倒换能力和应急反应速度上还有待提高,反应出互联网公司在应急处理能力上的普遍短板,互联金融系统的运行稳定性并不如此前所宣称那样完善。

5月27日下午5点,拥有将近3亿活跃用户的支付宝出现了大面积访问故障,全国多省市支付宝用户出现手机和电脑支付宝无法登陆、余额错误等问题。对于导致此次事件的原因,蚂蚁金服方面的解释并未获得金融和互联网界的广泛认同。

在蚂蚁金服发给《财经》的官方回应中称,出现这一问题的原因在于市政施工导致杭州市某地光缆被挖断,影响了支付宝一个主要机房的正常运转。当天晚上19时左右,即在事故发生大约两个多小时以后,支付宝服务才恢复正常。

蚂蚁金服称,无法精确统计在故障时间段内使用支付宝的具体用户数量。

拥有超过4万亿年交易总额的支付宝是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。故障发生后,用户普遍担心账户资金安全问题,亦有用户反应出现账户余额不同步的现象。

蚂蚁金服对此回应,支付宝有完善的技术和措施保护用户的资金安全,支付宝中的任何一个交易,同时都会有多份记录,数据可靠性极高。如果有用户出现交易不同步的情况,后续都会得到妥善解决。

这份蚂蚁金服发给《财经》的官方回应还指出,支付宝异地多活的系统架构在此次意外中发挥了巨大作用:一方面,没有因光缆被挖断而影响全部用户;另一方面,紧急将故障机房的流量切换至了其他机房。在当晚7点支付宝服务恢复时,被挖断的光缆还没有修复。

蚂蚁金服一位高管向《财经》记者表示,大流量网站实时切换涉及资金时有难度,需要安全地将用户的数据,尤其是资金数据也切换到其它机房,所以切换操作需要花费较多的时间。“技术上可以做到更快恢复,之所以较慢是为了确保不丢数据。”

蚂蚁金服对于这次事故的内部总结是,数据校验较多,怕丢数据,所以花了较多时间。内部认为这是一次安全但不够漂亮的灾备实战,就好比跳水,起跳不错,空中动作也还行,但入水压水花不够好。

《财经》记者了解,支付宝采用异地双活的系统架构,的确有多个机房。正因为如此,本次支付宝杭州机房网络中断,只影响了一个机房,其它机房的业务不受影响。

但这依然受到外界质疑。质疑焦点有二:一是恢复时间竟然长达两个小时;二是究竟是出于资金安全考虑而主动放缓速度还是支付宝应急预案出现漏洞?

一位国有大型银行内部人士向《财经》记者表示,如果在银行的支付系统发生大面积瘫痪超过2个小时,已经属于重大安全事故,很有可能要向国务院汇报备案。

他向《财经》记者强调,传统金融机构发生这样波及全国范围的安全问题几率微乎其微,原因在于银行涉及用户资金的重要系统灾备方案十分完备,一般是“两地三中心”云备份方案,保证“同城灾备结合异地灾备”,目的在于防止重大灾难或战争等极端情况。

上述国有大型银行内部人士认为,正因为此,如果银行系统出现支付宝因光缆被挖断而导致一个数据中心停摆的情况,用户流量和系统会向同城或异地其他数据中心切换。“就算不会是即时切换,也不会花费太长时间,同城可能会更快,就是用户根本感受不到延迟。”

这一说法得到多位接受《财经》记者采访的电信技术人士的支持。中国电信的一位技术高层人士分析,服务故障切换机制应该是自动的,根据一定的事先设置的策略,无需人为干预,人工可以在服务切换后,再重新定义流量疏导方式。

该人士称,支付宝多中心制的网络架构设计,不同于普通用户接入光缆宽带服务,不可能只是用一个区域性的小机房,一根光缆被挖断了就断服务了。支付宝机房服务的路由应该非常多,不可能只接一家运营商,即便只是一家,肯定也是多路由接入。“数据路由就像供电,来自不同的变压器和能原地。”

一位曾在汤森路透工作的阿里巴巴程序员亦向《财经》记者表示,汤森路透号称世界最大金融网络,处理全球实时金融数据,要求不能宕机,哪怕自然灾害或战争。他们机房这样建的:两条不同电信公司的光缆和不同电力公司的电缆分别从机房的两个方向进入,同一个机房的所有系统实时双备份,并建设两个不同城市(巴黎、日内瓦)机房同时实时处理相同的数据。

某大型国企网络运维人员称,从技术角度看,支付宝此次事故可能是内部应用模块出了问题,未经严格验证的应用被统一升级后,被意外触发到未知状态,会导致此类问题。

上述运维人员还表示,经他观察,支付宝DBA(数据管理人员)紧急恢复了RPO=10days的完整数据(RPO,Recovery Point Objective,复原点目标,是指当服务恢复后,恢复得来的数据所对应时间点,理想的状态是RPO=0,故障出现立即恢复,但需要极大投入),并不停地进行分段增量数据恢复,历时约2小时余,这就是应用模块的问题。

上述中国电信技术人士则分析认为,出现这种问题的可能性是,支付宝多个数据中心之间的自动流量切换机制出现问题,只能人工介入。还可能是其他三种原因:一是很有可能是支付宝遭到了攻击;二是支付宝的路由配置瘫痪了;三是支付宝的云服务器瘫痪了,亚马逊也出现过这个问题。号称最先进最安全的阿里云系统对自家业务并没支撑好。

就以上相关问题,《财经》记者询问了蚂蚁金服方面,蚂蚁金服回应称,具体的技术分析正在加紧进行,但得出结论判断还需要一段时间。

微妙的是,在蚂蚁金服更早的一份媒体回应中称,之所以花费较长时间,是在流量向支付宝位于深圳的数据中心迁移的时候,切换系统也受到了光纤断裂的影响,所以切换上花费了一些时间。这与“技术上他们可以做到更快恢复,之所以较慢是为了确保不丢数据”这一说法并不一致。

另有行业人士评价,此次事件反应出支付宝在故障倒换能力和应急反应速度上还有待提高,反应出互联网公司在应急处理能力上的普遍短板,互联金融系统的运行稳定性并不如此前所宣称那样完善。在支付宝发生大面积瘫痪事故之后,互联网企业的运维人员建立微信群对此展开了讨论。

随着云计算和大数据的逐步普及,以及人们在互联网应用越来越重的资产托付,IT技术领域普遍呼吁互联网公司改变“尽力而为”的服务承诺和网络架构,向传统电信、IT领域高达99.999%的“5个9”安全级别靠拢。

蚂蚁金服表示,支付宝将不断提升灾备切换速度,希望未来这样的切换能让用户无感知或者最小化感知。

对于此次事故带来的具体损失额度,蚂蚁金服表示,暂时无法统计。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

上个月,爱立信刚刚传出“对中国区业务进行战略调整,研发岗大面积裁员”的消息。这几天,就有员工确认,爱立信“核心网”成为了此次裁员的“重灾区”。

关键字: 爱立信 通信

设计工程师为了解决ISI问题,常常需要在链路损耗和均衡技术之间做出综合考虑。泰克的SDLA软件不仅可以模拟发送端的Tx EQ和接收端的Rx EQ,还能模拟传输链路的不同损耗。

关键字: 通信 示波器 测试测量

5G网络相较于4G网络,具有更高的数据传输速率,能够支持更高的峰值速率,理论上峰值传输速率可以达到10Gbit/s,这比4G网络快了大约10到100倍。

关键字: 5G 通信 4G网络

泰克实时示波器支持TekExpressLVDS自动测量软件,涵盖LVDS时钟和数据的30多个测量项目,一键完成一致性测量。

关键字: 通信 示波器 测试测量

2024年2月26日,国际通信行业盛会MWC 24于西班牙巴塞罗那召开,全球通信及其相关供应链的顶尖企业荟聚一堂,展示移动通信领域的前沿研究成果,与国际行业同仁展开深入技术交流。三安集成作为射频前端整合解决方案服务提供商...

关键字: 三安集成 射频 通信

在意大利媒体对沃达丰的并购交易提出多种猜测之后,该公司2月28日发布声明称,正在就将沃达丰意大利公司(Vodafone Italy)出售给瑞士电信进行独家谈判,但尚未达成有约束力的协议。

关键字: 沃达丰 瑞士电信 通信 宽带

即将于2024年6月竣工交付的华为上海研发基地(青浦),不仅是上海市重点工程,也是长三角一体化示范区西岑科创中心的亮点项目。

关键字: 华为 通信 芯片

全球4G和5G的部署速度比商业服务的推进速度更快,6G预计到2030年也会到来,电信运营商如何以正确姿势迎接未来?

关键字: AI 通信 5G 6G

近日,华为又新增了多条专利信息,其中一项关于人体通信的“黑科技”最引人注目。

关键字: 华为 通信

近日,华为接连曝出两大重磅消息:一个事关智能汽车,另一个事关卫星通信。

关键字: 华为 通信 汽车电子
关闭
关闭