搜狐首页 科技 贴身校花2

手机搜狐

SOHU.COM

揭秘:Instapaper基于AWS上MySQL历时一周的恢复

编辑手记:网络剪报服务商-Instapaper于2月9日出现了服务中断,故障发生后官方声明需要一个星期的恢复时间。而剖析其故障的原因,是由于最初使用了ext3文件系统,其固有的空间上限2TB导致的服务中断。这个责任该由谁来承担?Amazon的RDS可靠吗?随着故障的解决,我们来听听Instapaper的负责人怎么说。

本文来自Brian Donohue博客的翻译,若有不合理的地方,请参考原文。

正文

Instapaper服务在2月9日(星期三)12:30到2月10日19:30发生长时间的中断。 在做完全恢复的同时,我们首先利用归档恢复到一个时间点,通过有限的访问来保证服务的连续,而昨天(2月14),我们 已经完成了所有的恢复。

遭遇故障的主系统是MySQL数据库,这套系统我们以托管的方式运行在Amazon的关系型数据库服务上(RDS)。通过这篇文章我将深入剖析故障发生的原因,详细的处理过程,以及为了今后更高效可靠运行我们的应对方案。

原因剖析

简单来讲,数据库的故障时由于在2014年4月之前创建的RDS实例中的文件上限导致的。2月9号12:30,当Instapaper用户在存放文章的 bookmarks 表上插入数据并做保存的时候,使得对应的数据文件大小超出了2TB,随后其他用户在向该表中插入新的条目的过程中,收到如下报错:

存在2TB上限的根本原因是,该MySQL RDS实例使用了ext3文件系统,该文件系统的最大上限是2TB,而之后创建的实例则使用了ext4文件系统,其对象可以使用的文件大小的上限为6TB。

Instapaper RDS history

精选