Dropbox では、自社インフラストラクチャをオンプレミスのハードウェアとパブリッククラウドを組み合わせるハイブリッドモデルで運用しています。Magic Pocket と名付けられたこのインフラストラクチャは、Dropbox が独自に開発、構築したエクサバイト級のシステムです。2015 年に Magic Pocket に移行して以来、私たちは、大規模なストレージ容量の大幅な増加をいかにして管理するかを主な目標としてきました。そこで生じた課題が、電力効率と二酸化炭素排出量の問題です。数億人のユーザーに安定してサービスを提供するという課題はクリアできていたのですが、社会的な責任を果たしながらインフラストラクチャを運用する方法を確立する必要があったのです。
私たちは、チームを拡大するに際して、インフラストラクチャの運用を維持することだけでなく、運用効率をどのように高めるかという点に目を向け始めました。運用開始から 1 年後の電気料金が、目を疑うような金額になっていたからです。高額な電気料金は会社にとってもちろん痛手ですが、環境にも大きな影響を与えます。インフラストラクチャ担当以外のチームも同様の危機感を抱き、持続可能性に関する野心的な目標が掲げられることとなりました。
その結果 Dropbox は、カーボンニュートラルを目指す取り組みにおいて大きなマイルストーンを達成しました。データセンターに設置された全ストレージサーバーの電力を、100 % 再生可能エネルギーでまかなえるようになったのです。
Dropbox では、持続可能性に関する取り組みをお客様向けのデータストレージに集中させています。エデルマンの「2021 トラスト バロメーター」レポートで指摘されているとおり、企業に対する顧客の信頼は、持続可能性に取り組む企業のほうが高くなるからです(同レポートでは 5.7 %)。私たちのメッセージはシンプルで、「Dropbox なら、手持ちのすべてのデータを保存でき、しかもその処理に必要な電力はすべて再生可能エネルギーでまかなわれる」ということです。
Dropbox が今回のマイルストーンを達成するに至った背景には 3 つの戦略があります。これらの戦略は、今後さらなる持続可能性を実現するうえでの土台となるものです。この 3 つの戦略をここでご紹介するのは、Dropbox の成果を自慢するためではありません。私たちが共生するこの世界に本当の変化をもたらすための 1 つのきっかけになればと考えているからです。
電力使用効率の最大化
電力使用効率(PUE)は、データセンターで消費する電力をどれだけ効率的に利用できているかを表す指標です。私たちは、最高水準の PUE を達成するための目標を立てるにあたって、まず既存の業界ベンチマークを調べました。その結果、2015 年当時の業界平均に達していることがわかりましたが、自分たちはもっとできるはずだとも感じました。
そこで、データセンター全体に業界のベストプラクティスを採り入れ、PUE の最適化を目指すことにしました。実施したのは、「外気の活用による節約」「熱抑制システムの導入」「データセンター空間における電力効率の最大化」という 3 つの対策です。
- 外気の活用による節約:データセンターでは、ハードウェアを 24 時間常に冷却しておく必要があります。吸気温度が安定していないと、コンポーネントの加熱によってシステム障害が発生する恐れがあるからです。外気の活用による節約では、より温度の低い外気を室内に取り込むことで、適切な温度を保つために必要な冷却コストを削減します。気温の高い地域でも、涼しい日には、エアコンを強く効かせるより窓を開けて冷たい空気を取り込んだほうが、電力使用量もコストも少なくて済むのと同じです。
- 熱抑制システムの導入:Magic Pocket に移行した当初、私たちは、漏出や気流の問題によって冷気が失われることを考慮しないままデータセンター全体を冷却していました。先ほどの例でいうなら、気温の高い日に窓を開けたままエアコンを動かしていたようなものです。これでは冷気は外に流れ出してしまい、室内を冷やすという肝心の仕事はしてくれません。そこで、気流の効率が悪い部分を特定し、問題を解決するためのモデルである数値流体力学に基づく熱分析を実施したところ、あちこちに改善の余地があることが判明。その結果を元に既存のデータセンターを改善するとともに、新設するすべてのデータセンターに熱抑制システムを導入するための基準を策定しました。
- 電力効率の最大化:データセンターは特定範囲の電力を供給するように設計されているのが一般的です。使われないキャパシティは無駄であり、金銭面でも環境負荷の面でもコストとなります。Dropbox では、使用電力をキャパシティの 85 % にすることを目標としています。これは、効率性を保ちつつ急激な需要増に耐える余力を残すことのできるスイートスポットです。
Dropbox では、これらのベストプラクティスを採り入れることで、業界最高水準の PUE レベルでデータセンターを運営しています。2020 年の時点で、Dropbox の PUE は業界平均を 17 % 下回っていますが、この現状に甘んじることなく、データセンター事業者各社との協力やソリューション開発を続けていきたいと考えています。
全体的な電力消費の最適化
単に電力を効率よく使うだけでは不十分です。私たちが目指しているのは、消費電力自体を減らすことです。消費電力を少なくするために、次のような対策を講じています。
運用を終了したホストを速やかに停止
Dropbox のデータセンターでは、寿命に達するサーバーが定期的に発生しています。私たちは、サーバー運用状況に関するデータを継続的に収集する中で、サーバーの運用を終了してから実際に停止するまでに時間差があることに気付きました。プロビジョニングや運用終了をはじめとするサーバーメンテナンスのほとんどの作業を、エンジニアが手動で行っていたことが原因でした。
運用を終了したこれらのサーバーを速やかに停止するため、私たちは、元々はサーバーをプロビジョニングするために開発された ClusterOps の Pirlo システムを使って、運用を終了したサーバーホストを直ちに停止する自動サービスを展開しました。このシンプルな工夫によって、各サーバーのライフサイクル全体での電力消費量を推定で 5 % 削減することに成功しています。
フリープール内のサーバーに消費電力の小さいステータスを使用
Dropbox のデータセンターに展開されたサーバーは、まずフリープールに置かれ、利用可能であることを示すフラグが付けられます。このフラグは、そのサーバーがオンラインであるがアイドル状態にあり、サービスの割り当てを待機していることを示します。
サーバーを満載したラックの検証を行っているとき、私たちは、ラック 1 台あたりの消費電力がアイドル状態でも 5 キロワット近くになることに気付きました。そこで、実稼働させていないサーバーの消費電力を減らす方法を検討しました。
現在は、データセンターに「HDD スタンバイ」という新たなステータスを導入する作業を進めています。このステータスにある場合、オペレーティング システムが動作したままで、サーバーのディスクドライブは停止状態となります。つまり、サーバーを稼働状態に維持してサービスを割り当て可能な状態を保ちつつ、電力消費を減らすことができるのです。回転するディスク ドライブは大量の電力を消費するため、HDD スタンバイの導入によって、ストレージホストの消費電力を推定で 50 %、Hadoop Distributed Filesystem ホストの消費電力を 25 % 削減できると見込んでいます。
これは非常に大きな削減量ではありますが、いくつかの課題があります。フリープールで割り当てを待っているホストに、いざというときに速やかにサービスを割り当てるためには、全ドライブの状態を常に監視しておく必要があります。HDD スタンバイの導入前であれば、ドライブはすでに稼働しているため、すぐに応答することが可能でした。しかし HDD スタンバイでは、クエリを受け取ったサーバーが停止中のドライブを稼働させる必要があるため、クエリへの応答に時間がかかってしまうのです。
ただし、このプロセスは改善することが可能です。従来の方法では、ドライブに対するクエリは直列で行われます。つまり、サーバーはドライブを 1 つずつ順番に稼働させ、チェックを行ってから、次のドライブを稼働させるという方法です。私たちは数週間前、これに代わる新たな方法として、ドライブに対するクエリを並列で実行するためのコードを導入しました。新しい方法では、すべてのドライブに対してクエリを実施し、同時に動作を停止させることができます。この結果、クエリの実施に要する時間を 99 % 削減できるようになり、その間はサーバーのほとんどのディスクドライブを稼働させる必要がありません。
キャパシティを適正化
キャパシティには微妙なバランスがあります。つまり、リグレッションによるトラフィックの急増やチップの供給不足に伴うラックの納入遅れといった需給リスクに対応できる十分な余裕を確保しつつ、システムの効率低下を招く過大な余剰を持たないようにしなければなりません。
Dropbox では、将来を見据えて確保すべき適正なキャパシティを、過去のデータに基づいて判断するための確固たるモデルを構築。キャパシティ効率を常時測定し、それに従って需給を調整しています。
従来は、過去のデータとサービスオーナーからの意見に基づき、年 1 回の頻度でキャパシティ計画を策定していました。しかし現在では、チームと専門的な人材を拡充したのに伴い、計画策定の頻度を月 1 回に変更し、さらにシステムを常時監視してキャパシティの使用を適正レベルに維持できるようにしています。これにより、データ ポイントを増やしてより信頼性の高いモデルを構築することができるようになりました。その結果、説明能力を高め、キャパシティ計画を迅速かつ柔軟に変更できる体制を実現できています。
オーケストレーション
Dropbox では、ハードウェアの性能を最大限に引き出すため、ハードウェアからオペレーティング システム、TCP における輻輳制御、圧縮アルゴリズムに至るデータ処理レイヤー全体の最適化に努めています。データセンターの側面では、インフラストラクチャ全体で改善を図ることにより、導入済みのサーバーを最大限に活用する方法を常に模索しています。
この点での主な取り組みの 1 つは、オーケストレーションプラットフォームを Kubernetes に移行したことです。プラットフォームの移行は、効率性に関する次のようなメリットをもたらすものと見込まれています。
- マルチテナンシー:Kubernetes のビンパッキング機能により、複数のサービスを 1 台のサーバー上に異なる形式(CPU やメモリ、ネットワークの構成)で配置し、全体的なリソース使用率を最大化できます。
- オーバーサブスクリプション:ある状況において、CPU など一部のリソースを、処理のレイテンシ性能を低下させることなく安全にオーバーコミットできます。これにより、処理負荷の大きいバッチジョブの効率性を高めることができます。
- バックグラウンド ジョブ:内部的な「スポット インスタンス」を優先順位の低いジョブ(データ検証やメタデータ検証など)に活用できます。こうすることで、ピーク時間のリソース使用率を下げてアイドル時間の使用率を上げることができるので、必要な電力量とその使用効率を最適化できます。
Dropbox 内部で処理するメタデータ検証クエリの数は、ユーザーから送信されるクエリの約 10 倍に上ります。このメタデータ検証クエリの発生源は、MySQL のレプリケーション検証(pt-table-checksum)、ファイルシステム検証、ブロック検証、コールドストレージ検証、セキュリティ検証など多岐にわたります。これらの検証はいずれも、優先順位の低いジョブとしてピーク時間外に処理し、安定した運用を維持することができます。
ハードウェアを高密度化
Dropbox では、筐体サイズを維持したままキャパシティを増強した新しいハードウェアの評価と採用にも引き続き取り組んでいます(Magic Pocket のケーススタディをご覧ください)。サーバーやラックの台数、設置スペースを増やすことなく、ストレージ容量や処理能力を高めることは非常に重要です。ハードウェアの台数や消費電力を増やさずにより多くの処理を行う高密度化は、データセンター運営の炭素効率性を高めるうえで大きな役割を果たしています。
Dropbox が先ごろ導入した Magic Pocket ストレージ プラットフォームでは、20 TB のドライブを採用することで、以前のストレージ プラットフォームに比べてストレージ容量を 43 % 増やすことに成功しています。ストレージ エンクロージャ 1 台あたりの容量 2 PB 超は、前世代と比較して 4 倍近くの増加です。
コンピューティング能力でも、現行プラットフォームは CPU ソケットあたり 48 コアと、前世代からコア数が 3 倍に増加しています。
ハードウェアメーカーは、さらなる高密度化を可能にする新たなテクノロジーの開発を続けています。たとえばハードドライブベンダーは、ドライブあたりの容量を 35 TB にするためのロードマップを明らかにしており、CPU ベンダーも、128 スレッドのプロセッサを発表し、コア数のさらなる増加を進めるとしています。
サービスも、スケールアップやマルチテナンシーを活用した最適化によって高密度化を図ることが可能です。ただし、このような最適化を行わなくても、インフラストラクチャのワットあたりの処理能力は向上し続けています。
100 % 再生可能エネルギーの調達
私たちは、データ センター運営を可能な限り効率化するために、自らの活動をくまなく見つめ直しました。業界のベスト プラクティスを全社規模で導入していると自負し、その取り組みを定期的に監査、再考しています。今後は、データセンター運営に必要な電力を再生可能エネルギーでまかなえるようにしたいと考えていますが、その第一歩はストレージです。
このダッシュボードは、Dropbox の全データ センターで使用している電力の各調達元の割合を、サイト単位でカテゴリ別に示しています。
2021 年、Dropbox は再生可能エネルギーの調達に多大な投資を行っており、再生可能エネルギー投資を強化した数ある企業の 1 つとして、ゴールドマンサックスのレポートで社名を挙げられています。Dropbox は、自社のストレージプラットフォームが直接消費する電力を 100 % カーボンニュートラルにするための取り組みを進めてきましたが、ストレージから着手したのは、それがお客様にとっても弊社にとっても重要であると考えているからです。
これまでの成果
Dropbox は、データセンターの二酸化炭素排出量をこの 1 年半で 15 % 削減することに成功しています。 しかし、データセンターの電力を 100 % 再生可能エネルギーでまかなうという Dropbox の取り組みはまだ始まったばかりです。Dropbox はハイブリッドモデルでデータセンターを運営しているため、パブリッククラウドパートナーと協力することで、自社の施設に限らず、世界規模で持続可能性の目標を達成することができます。
Dropbox からの呼びかけ
持続可能性への取り組みを始める企業が増える中、Dropbox が訴えたいのは、安易にカーボンオフセットに頼るべきではない、ということです。どのような企業でも、社内を見渡せば、データセンターの二酸化炭素排出量を最小限に抑える何らかの手段が見つかるはずだと、私たちは考えています。
現在、米国で使用されているエネルギーの 5 分の 4 は、気候変動に影響する化石燃料由来です。再生可能エネルギー由来は 10 分の 1 に過ぎません。二酸化炭素排出量の削減に貢献しないカーボンクレジットと貢献するカーボンオフセットの違いを理解することは大切ですが、世界でどれだけオフセットが行われても、私たちが暮らすこの地球をあるべき姿へと導くことはできません。
もし真剣に私たちと同様の変化を起こしたいと望むのなら、ぜひビル・ゲイツ氏の新著「How To Avoid A Climate Disaster」をお読みください。ゲイツ氏は、小さなスタートアップ企業でも実践できる、気候の改善につながる変化を起こす方法を示しています。たとえば、地元の商工会議所に緑化活動を呼びかける、高密度ラックなどの環境にやさしいテクノロジーを率先して導入する、あるいは、公的な資金を受けながらそのイノベーションを市場に投入する力を持たない研究者を支援する、などです。
「安易な道を選ぶだけでは、問題を解決することはできません」とゲイツ氏は述べています。「そうではなく、もっとリスクを受け入れる必要があります。(中略)気候変動問題の改善につながる投資をした企業とその経営者に、もっと報いることが必要です。」