宕机频发险致OpenAI“散伙” 智算中心如何保障稳定性?

根据实际来看,影响智算中心可靠性的因素包括多个方面,想要保障安全稳定性,需要提升智算基础设施的建设运维能力、网络安全能力、智算供给能力等,这其中涉及到芯片的选择应用、智算中心的制冷情况、网络...【详细】

宕机  OpenAI  智算中心  2023-11-27

宕机频发险致OpenAI“散伙” 智算中心如何保障稳定性?

宕机频发险致OpenAI“散伙” 智算中心如何保障稳定性?

OpenAI超95%员工签字威胁离职。【详细】

智算中心  宕机  OpenAI  人事变动  安全与稳定  2023-11-22

宕机频发险致OpenAI“散伙” 智算中心如何保障稳定性?

华为云服务器宕机 官方回应:部分主机异常,正修复

有消息称这次宕机主要是由于北京的机房出现故障导致的,广州和上海的用户表示能够正常使用。【详细】

华为云  宕机  云服务器  2020-04-11

华为云服务器宕机 官方回应:部分主机异常,正修复

华为云宕机?官方回应:检测到部分主机异常,目前故障基本修复

4月10日,新浪微博有网友发文表示,华为云登录、管理后台无法访问,疑似华为云出现宕机。【详细】

华为云  宕机  云服务市场  2020-04-10

华为云宕机?官方回应:检测到部分主机异常,目前故障基本修复

叮当快药出现服务器宕机

疫情以来用户量激增,已将服务器扩容30倍。【详细】

宕机  服务器扩容  新冠肺炎  2020-02-12

叮当快药出现服务器宕机

运维难度“更上一层楼”—不存在的!

如今,数字化时代已经到来,数据中心规模和容量都在成倍增长,随之而来的运维管理复杂度和难度也越来越大,从脚本运维、工具运维到平台运维演进至今,人力已接近极限,随即智能运维应运而生。【详细】

数据中心  运维管理  宕机  2019-08-26

运维难度“更上一层楼”—不存在的!

亚马逊云计算服务出现宕机 多个区域受影响

据国外媒体报道,亚马逊目前已在官网证实云计算服务出现了宕机,多个云服务区域的连接因此而受到了影响。 【详细】

亚马逊  云计算  宕机  2019-06-25

亚马逊云计算服务出现宕机 多个区域受影响

亚马逊AWS证实晚间宕机 回应:外部服务商出了问题

据彭博社报道,亚马逊旗下云业务部门Amazon Web Services(AWS)刚刚证实,由于一家外部服务提供商出现问题,影响了部分客户网络和多个AWS区域(AWS Region)之间的互联网连接。 【详细】

亚马逊  宕机  服务商  2019-06-25

亚马逊AWS证实晚间宕机 回应:外部服务商出了问题

AWS宕完谷歌宕,罪魁祸首是...

谷歌云此次宕机中,北美用户受到的影响大,欧洲一些用户也报告了问题。当地时间下午17:00,在宕机4小时之后,谷歌解决了这一问题。谷歌承诺将发布一份详细的故障分析报告。【详细】

AWS  谷歌  宕机  2019-06-04

AWS宕完谷歌宕,罪魁祸首是...

谷歌云服务宕机 欧美部分地区无法用YouTube等服务

谷歌已经在其云计算平台上发布了一份状态更新,指出问题开始于美国东部时间周日下午3点25分。【详细】

谷歌云  宕机  云计算  2019-06-03

谷歌云服务宕机 欧美部分地区无法用YouTube等服务

谷歌回应云服务大规模宕机 :会尽快修复

今日, 谷歌云服务 出现了 大规模 宕机, 包 括 Gmail、YouTube 、 G Suite 、 Snapchat 等应用都受到了 影响 。据悉,此次宕机 影响了北美、英国、欧洲、南美等全球多地的谷歌服务。 【详细】

谷歌  云服务  宕机  2019-06-03

谷歌回应云服务大规模宕机 :会尽快修复

腾讯云回应大规模宕机:光纤挖断后的 150 秒

3 月 23 日下午 4 点左右,腾讯多个产品出现大规模宕机,暖暖、QQ 飞车,王者荣耀,吃鸡等 90 多个服务受到影响。下午四点半,腾讯云发布公告称:各位用户,2019 年 03 月 23 日 16 时左右,因上海当地网...【详细】

腾讯云  宕机  光纤  2019-03-26

腾讯云回应大规模宕机:光纤挖断后的 150 秒

网络问题导致更多的数据中心中断

断电是数据中心中断的常见原因,但它们不是唯一的罪魁祸首。随着企业计算环境变得越来越复杂,IT系统和网络故障导致大量数据中心宕机。 【详细】

数据中心  宕机  IT  2019-03-26

网络问题导致更多的数据中心中断

做好这3步,数据中心迁移不断网

在数据中心迁移方面,网络工程师通常没有太多值得期待的事情,除了迁移事故导致意外停机的焦虑以外。但并不一定是这样。有了正确的工具,网络团队可以轻松地了解正确管理流程,并且可以尽其所能确保迁移项...【详细】

数据中心  数据中心迁移  宕机  2019-03-18

做好这3步,数据中心迁移不断网

“宕机”背后:云安全的问题有多少?

近日,阿里云突发的宕机事件又将云安全推到风口浪尖,据了解,此次事件是阿里云华北2地域可用区C部分的ECS服务器(云服务器)等实例出现IO HANG(IO不响应)导致的。阿里云经紧急排查处理后,业务已全部恢...【详细】

宕机  云安全  云计算  2019-03-14

“宕机”背后:云安全的问题有多少?

宕机的阿里云们正在杀死运维行业吗?

近年来,“去运维”的相关讨论甚嚣尘上,但似乎没有引起程序员的过多关注或者大范围讨论。近日,程序员论坛 V2EX 上出现一个热议话题“阿里云正在缓慢而稳步地杀死运维行业”,这似乎表明运维人员最终还是...【详细】

宕机  阿里云  运维  2019-03-07

宕机的阿里云们正在杀死运维行业吗?

阿里云华北地区出现宕机 官方:逐步恢复并尽快赔偿

3月3日凌晨,有诸多网友在微博反馈,阿里云疑似出现大规模宕机故障,此次故障影响了众多华北地区的互联网公司。 【详细】

阿里云  宕机  云计算  2019-03-04

阿里云华北地区出现宕机 官方:逐步恢复并尽快赔偿

阿里云:宕机故障已恢复,将尽快赔偿

3月4日讯,3月3日凌晨,有网友在微博上称阿里云疑似出现了宕机事故。据新京报消息,目前阿里云方面回应称,经紧急排查处理后已恢复服务。【详细】

阿里云  宕机  云服务器  2019-03-04

阿里云:宕机故障已恢复,将尽快赔偿

宕机频发,智能运维能根除bug吗?

当前的IDC的管理日趋复杂,加之运维人员错误操作现象,如何运行一个庞杂的数据中心,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障呢? 【详细】

宕机  智能运维  数据中心  2019-02-26

宕机频发,智能运维能根除bug吗?

故宫网站崩溃,用不用把程序员拖出去斩了?

昨晚你抢到故宫夜游票了么?【详细】

故宫  服务器  宕机  2019-02-19

故宫网站崩溃,用不用把程序员拖出去斩了?

一份运维监控的终极秘籍!监控不到位,宕机两行泪

有很多文章都提到过白盒监控和黑盒监控,以及监控的四个黄金指标。关于白盒与黑盒监控的定义,这里不再赘述。一般来说,白盒与黑盒分别从内部和外部来监控系统的运行状况,例如机器存活、CPU 内存使用率、...【详细】

运维监控  宕机  CPU  2019-02-13

一份运维监控的终极秘籍!监控不到位,宕机两行泪

云服务经历的至暗时刻,2018十大云宕机事故盘点

2018 年,云计算市场不仅发展迅速,而且问题不断。云供应商与开源社区的矛盾不断升级,主流云厂商均未逃过宕机事件,更有甚者一年出现多次服务宕机,导致企业对公有云的信心持续走低。【详细】

云服务  宕机  云计算  2019-01-02

云服务经历的至暗时刻,2018十大云宕机事故盘点

青云真正多活的灵魂:高效、便捷、可靠、全面

宕机,是开发和运维人员最为敏感的事情,服务器一旦宕机会给服务商和访客造成不可预估的影响,降低访客对访问网站品牌的信任度。【详细】

青云  云计算  宕机  2018-12-04

青云真正多活的灵魂:高效、便捷、可靠、全面

中国电信为谷歌背锅?揭秘本月几桩离奇宕机事故

宕机月月有,本月特别多。比如今天,又有两个互联网巨头被爆出现宕机事故。【详细】

中国电信  谷歌  宕机  2018-11-22

中国电信为谷歌背锅?揭秘本月几桩离奇宕机事故

苹果App Store全球宕机!实测:已完全恢复

11月21日一大早,有网友在社交网络媒体上反馈,自己的App Store出现了打不开的情况,随后这个情况蔓延到iTunes Store上,不过那时只是国外用户反馈,所以跟国内用户影响并不大。【详细】

苹果  AppStore  宕机  2018-11-21

苹果App Store全球宕机!实测:已完全恢复

GKE全球大宕机长达19小时,网友表示:Google是一个笑话

自10月16日谷歌YouTube陷入全球性宕机之后,谷歌再次发生重大宕机事故。【详细】

谷歌  公有云  宕机  2018-11-15

GKE全球大宕机长达19小时,网友表示:Google是一个笑话

全球数据中心宕机那些事儿

对于数据中心而言,宕机是十分难以承受的事件。宕机会造成数据中心的业务中断,导致用户无法正常访问应用程序。在严重的情况下,会给企业业务方面造成巨大损失。【详细】

数据中心  宕机  YouTube  2018-10-19

全球数据中心宕机那些事儿

有故障的才是「云平台」

最近云平台故障挺多的,阿里云故障完了,我想等两周再发本文,结果AWS美国挂了;AWS的热议刚刚消停,企鹅家也遭灾了【详细】

云计算  云平台故障  宕机  云安全  云服务商  2018-08-01

有故障的才是「云平台」

腾讯云突发宕机 回应:运营商光缆中断新建备线恢复中

截至目前,雷锋网从腾讯云获悉,所有服务已在恢复当中。【详细】

腾讯云  宕机  运营商  光缆中断  2018-07-24

腾讯云突发宕机 回应:运营商光缆中断新建备线恢复中

腾讯云广州区域全面断网宕机!只因运营商光缆物理中断

中国IDC圈讯 7月24日上午,腾讯云因广州运营商光缆物理中断宕机。据微博用户@卢松松 表示,腾讯云此次宕机影响较大,已导致腾讯云广州区域全面断网,包括腾讯云主页、控制台、DNSPod等。数字尾巴主站、新...【详细】

腾讯云  运营商  光缆  宕机  2018-07-24

腾讯云广州区域全面断网宕机!只因运营商光缆物理中断

数据中心运维:减少折腾就是降低故障

“没有折腾,就没有故障”这句话虽糙,但却很有道理,尤其在运维上。据有关咨询机构统计,数据中心的故障中有百分之七十是人为故障,也就是与人的活动强相关,可见人对于数据中心来说是多么可怕。【详细】

数据中心  运维管理  宕机  运维工作  2018-07-17

数据中心运维:减少折腾就是降低故障

某品牌云服务宕机,大量用户深受影响

6月27日晚,有大量用户反映阿里云出现连接问题,很多用户在实例上执行操作之后没有回应,在6月28日凌晨,阿里云发出公告,表示问题是运维和工程师的失误导致,现已恢复。无独有偶,chromecast和Google Hom...【详细】

阿里云  谷歌云  宕机  用户  2018-06-29

某品牌云服务宕机,大量用户深受影响

纳斯达克数据中心宕机 哥本哈根等7个城市受影响

4月18日,纳斯达克(NASDAQ)位于斯德哥尔摩väsby的数据中心发生宕机,事故原因是数据中心的消防灭火系统气体泄露,导致机房关键IT设备关主闭。【详细】

纳斯达克  数据中心  宕机  消防系统  2018-04-19

纳斯达克数据中心宕机 哥本哈根等7个城市受影响

滴滴回应外卖故障:订单暴涨致服务器宕机

4月2日,有用户发现滴滴外卖出现故障,滴滴出行App中的外卖入口(无锡)被撤下。对此,滴滴方面回应称,昨日我们在无锡开启小范围灰度测试,受到用户大量关注,短期订单暴涨超出预期,为了保证更好的体验...【详细】

无锡  滴滴  服务器  宕机  2018-04-03

滴滴回应外卖故障:订单暴涨致服务器宕机

数据中心宕机,应对的主要措施与方法有哪些

虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心。【详细】

数据中心  宕机  托管数据中心  2018-03-16

数据中心宕机,应对的主要措施与方法有哪些

数据中心宕机,应对的主要措施与方法有哪些

虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心。【详细】

数据中心  宕机  2018-03-16

数据中心宕机,应对的主要措施与方法有哪些

VR成风的现在,当你谈论服务器时你在谈什么

喜欢的才能坚持,不喜欢的怎么坚持也长久不了。那说点实际的——当我谈论服务器时我在谈什么呢? 【详细】

VR  数据中心  服务器  宕机  2017-10-12

VR成风的现在,当你谈论服务器时你在谈什么

伦敦一所大学因灭火器触发导致宕机 造成网络中断

日前,伦敦一所学意外启动触发了一个灭火器,其惰性气体和碎屑喷溅到正在运行的IT设备,导致宕机。【详细】

灭火器  宕机  机房宕机  网络中断  数据中心机房宕机  2017-10-10

伦敦一所大学因灭火器触发导致宕机 造成网络中断

数据中心再爆重大宕机事故 科学的评估很重要

近日,某IDC服务商机房宕机直接导致某商业银行业务中断,此事引起了银监会的高度重视,并发布了《中国银监会办公厅关于银行业金融机构数据中心基础设施外包风险提示的通知》。【详细】

数据中心  宕机  宕机事件  数据中心评估  2017-09-19

数据中心再爆重大宕机事故 科学的评估很重要

如何降低数据中心宕机事件的影响

大多数人在生活或工作领域中都不希望出现连接中断的情况,尤其是在以数字生活方式为主的今天,所以数据中心基础设施变得越来越重要。对于许多消费者来说,他们希望自己的数字产品和服务能保持正常工作,所...【详细】

数据中心  宕机  2017-08-30

如何降低数据中心宕机事件的影响