VMware Cloud on AWSのSLAとFTTの関係について

こんばんわ

今日はタイトルの通り、VMC on AWSのSLAとvSANのFTTについて紹介したいと思います。

FTTについてのおさらい

これはvSANの用語なので、オンプレミスでも同様ですが、FTTとはFailures To Tolerateの略で、「障害を許容するノード数」のことです。

例えば、FTT=1というのは、1台のノード障害に耐えられる構成、なります。

また、おなじみのRAIDという考え方も同時に存在し、vSANの可用性はRAID + FTTで表現され、ストレージポリシーという名称で呼ばれます。

例えば、RAID1(ミラーリング) + FTT1 だと、データを2重に複製し、1ノードの障害に耐えられる構成、になります。

f:id:TANGWAAAA:20210108221627p:plain — 3ノードvSANでのRAID1+FTT1イメージ

また、ノード数によって、FTTの数や選べるRAIDレベルは変わります。

RAIDレベルに関しては、1ノード=1ディスクと考えれば、普通のRAIDと同じですね。

f:id:TANGWAAAA:20210108231728p:plain

さて、ここまではvSANの機能のおさらいでしたが、これがVMware Cloud on AWSのSLAと関わるので紹介しました。

VMware Cloud on AWS の SLA(Service Level Agreement)

VMware Cloud on AWSのSLAは、（ストレッチクラスタなしのシングルAZ環境で）99.9%と定義されています。

https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/support/vmw-cloud-aws-service-level-agreement.pdf

👆にSLA定義が記載されていますが、

以下のそれぞれが、VMware Cloud on AWS サービスの SLA 事由とみなされます。

SDDC インフラストラクチャ：
a) 1 つのクラスタで実行中のすべての仮想マシン（以下、「仮想マシン」）が、継続して 4 分間に
わたり接続を確立できない場合。
b) いずれの仮想マシンからも、継続して 4 分間にわたりストレージにアクセスできない場合。
c) いずれの仮想マシンも、継続して 4 分間にわたり起動できない場合。
SDDC 管理：
a) vCenter Server に、継続して 4 分間にわたりアクセスできない場合。
b) NSX Manager に、継続して 4 分間にわたりアクセスできない場合。

と記載されており、4分間業務が停止するような障害が発生した際には、その分のSPPクレジットの受け取りを要求することができます。

ただし、このSLAはVMwareが定めたストレージポリシーで稼働していることが前提条件となります。
（ストレッチクラスタに関しては除外して抜粋）

すべての仮想マシンストレージポリシーについて、クラスタのホスト数が 2～6台の場合は、最低FTT＝1以上であり、クラスタのホスト数が 6～16台の場合は、最低FTT＝2以上であること。

クラスタのストレージキャパシティに 25 % のスラックスペースが維持されていること。

クラスタに、仮想マシンの起動に必要となる十分なキャパシティがあること。