データセンター ユーザ事例

楽天、日本初の最先端ネットワーク技術採用で IT 運用が根本的に変わる

1000 台以上のスイッチを 100 台に:楽天、日本初の最先端ネットワーク技術採用で IT 運用が根本的に変わる

世界市場を相手に事業を拡大する、インターネット総合サービスを提供している楽天。同社はシスコのネットワークファブリック技術「FabricPath」を日本で初めて本格採用。新しいデータセンターの基盤とすることで、IT インフラを機動的なビジネス展開のためのエンジンに変身させようとしている。

 インターネットで商品を購入する人の間で、知らない人はいない国内最大級のインターネット・ショッピングモール「楽天市場」。おびただしい数の出店企業のプラットフォームとして機能しており、止まることは許されない。楽天は、成長を続ける同サービスの舞台裏で、このプラットフォームをさらに柔軟で効率的、かつ拡張性に富んだものに進化させるべく、データセンターインフラの全面刷新を進めている。新たなデータセンターのネットワークを支えるのは、シスコシステムズのスイッチ「Cisco Nexusシリーズスイッチ」と、同シリーズが搭載する Cisco FabricPath 技術だ。

 FabricPath 採用の最大の動機は、ネットワークインフラの効率化と運用性の向上にある。

 これまでのイーサネットの構築では、ある接続が途切れてもトラフィックの迂回路を提供できるように、予備の接続やスイッチを用意しておくことが常識となっている。これらは、平常時には使われることがない。本稼働の接続やスイッチに障害が発生すると、スパニングツリープロトコル(STP)という仕組みで、予備の接続に自動で切り替わることになる。

 しかし、こうした構成では、予備の接続やスイッチが平常時には待機しているだけなので、無駄になってしまう。また、STP による切り替えは瞬時とはいかず、安定的なネットワークの運用という点でも、頭の痛い問題となってきた。

前例のない FabricPath 導入に至った理由

 楽天でサーバープラットフォームグループ サブマネージャーとして、データセンターインフラ運用におけるキーマン的な役割を果たしている岩崎磨氏は、こうした従来型のネットワークの効率性と運用性に問題意識を持っていた。

 楽天市場の従来のデータセンターネットワークは、用途に応じて多数のレイヤ 3 セグメントが構成・運用されてきた。これは用途に応じたサービスレベルを確保するには有利だが、運用負荷が高く、楽天市場のサービスの急速な拡大への追従も難しい。また、各レイヤ 3 セグメント内では上述の STP が使われ、帯域およびスイッチの利用に大きな無駄が発生していた。結果として、データセンター全体では、1000 台を超える数のスイッチが使われてきたという。

 楽天にとって、データセンターネットワークの集約化と効率向上は急務だった。しかし、安定稼働中のサービスを支えているネットワークの構成に手を加えることは、非常に困難だ。そうしたなか、楽天では仮想化を基盤とする新たなデータセンターを構築し、楽天市場の物理サーバを仮想化したうえで、順次この仮想基盤に統合していくことになった。これを機にネットワークについても、併せて集約化を進めることにした。すなわち、新しいデータセンターへの移行により、包括的なインフラコストの削減を進めることにしたのだ。

 まず、新しいデータセンターでは広大なレイヤ 2 ネットワークを構築。VLAN を使って、多数のレイヤ 3 セグメントをこれに統合する。さらに、当時(2011 年)はようやく実装が登場しつつあった TRILL(TRansparent Interconnection of Lots of Links)という技術を採用して、STP から脱却し、ネットワークの利用効率を高めることを考えたという。

 TRILL とは、イーサネットスイッチ間の接続構成を自動化する技術だ。特に冗長接続の構成にメリットをもたらす。TRILL ではスイッチ間で自動的にネットワークの冗長構成が設定される。予備の接続やスイッチという概念はなく、平常時にも全スイッチ、全接続が有効に使われる。こうした自動構成機能は、ネットワークの拡張や構成変更にも生かすことができ、手間の掛からないネットワークの構築と運用に大きく貢献する。

 TRILL あるいはそれに類似した技術は、複数のネットワーク機器ベンダが提供している。そのなかで、楽天はシスコの TRILL 実装である FabricPath を選択した。

 その理由の 1 つは拡張性にある。各社とも特に当初、こうした製品の最大スイッチ接続台数や扱える MAC アドレス数には大きな制限があった。しかし、シスコの FabricPath は当初から、他社に比べてより大規模なネットワークの構築に対応できるスペックを有しており、そのうえでさらに大規模な環境への対応を迅速に進めていたという。

 とはいえ、楽天のような規模で FabricPath を使った前例は、国内にはまったくなかった。国外でも当時は手本がほとんどなかったといって過言ではない。そうしたなかで、実運用に耐え得るかどうかを見極めるのは容易ではなかった。だが、シスコは検証の段階から、米国本社のエンジニアが日常的に直接対応して強力にサポート。楽天のエンジニアも、これを受けて問題点を迅速に解決できた。その作業のなかで、2 社の相互協力を通じ、適切な運用手法を見出すこともできたという。「こうした対応をしてくれるシスコと一緒にやっていくことが、当社にとって最適だと判断し、同社の製品を選択しました」と岩崎氏は振り返る。

1000 台以上のスイッチを 100 台に減らせる

 それにしても、前例のない規模での新技術の導入に踏み切ったのはなぜなのか。岩崎氏は次のように説明する。

 「当社は世界ナンバーワンのインターネット企業になるという目標を掲げています。他社の事例がなければやらないというのでは最先端のことができません。一方で、リスクが大きいことは認識していました。だからこそ検証作業が非常に重要でした。導入する環境において発生すると思われる問題を徹底的に洗い出し、確認してから実運用に移行することで、確認している範囲での問題には対応できるという自信が持てました」(岩崎氏)。

 最先端のネットワーク技術を採用した新しいネットワークは、2012 年に運用開始となり、それを拡大した新しいデータセンターは、2013 年に運用開始となった。既存のデータセンターで 1000 台以上あったスイッチが、新しいデータセンターでは数十台に集約された。サーバ移行はまだ完了していないため、新しいデータセンター内のスイッチはまだ増える可能性がある。それでも、移行完了時で 100 台程度には落ち着くのではないかと、岩崎氏は考えている。運用開始から約 1 年が経過したが、ネットワークが停止するようなトラブルは 1 件も発生していないという。

 楽天では今回、FabricPath 機能を実現するため、「Cisco Nexus 5000シリーズ」と「Cisco Nexus 2000シリーズ」の組み合わせを採用した。小型スイッチを、ニーズに応じて相互接続により拡張していくことで、需要に応じたきめ細かなネットワーク増強ができる。また、Nexus 2000 シリーズは Nexus 5000 シリーズから統合管理できるため、運用作業が大きく簡素化できたという。

楽天の新ネットワーク概念図。今後、データセンター間を FabricPath で結ぶことも考えているという

楽天の新ネットワーク概念図。今後、データセンター間を FabricPath で結ぶことも考えているという

 「過去は、大型のコアスイッチやコアルータを使わざるを得ませんでした。その点 Nexus では 1U の製品でも、10Gbps をワイヤレートで伝送できますし、レイヤ 3 でも 160Gbps の伝送容量があります。コンパクトなスイッチを活用していくことで、ラックのコストを含めた、製品調達コストの削減にも、大きく寄与していると考えています」(岩崎氏)。

Cisco Nexus 5000シリーズ

Cisco Nexus 5000シリーズ

Cisco Nexus 2000シリーズ ファブリック エクステンダ(FEX)

Cisco Nexus 2000シリーズ ファブリック エクステンダ(FEX)

効率的なデータセンターにおける「うれしい誤算」

 今回、楽天が新しいデータセンターのネットワークを、フラットなレイヤ 2 の空間として構築することにこだわったのには、サーバやアプリケーションの移行の容易さという理由もある。

 楽天市場の既存サーバ群の移行は、段階的に進められている。対象となるサーバ台数は膨大だ。インフラコストの削減が最大の目標であるため、移行におけるサーバやアプリケーションのエンジニアの負担は、最小限に抑えたい。できるだけ構成変更をせずに、サーバやアプリケーションを移行できるようにするため、広大なレイヤ 2 の空間を用意したかったのだという。

 また、アプリケーション運用担当者とネットワーク運用担当者双方の運用負荷を軽減するため、アプリケーション運用担当者が、ネットワーク関連の設定を自ら変更できるような Web ツールも順次提供しているという。このWebツールを使って、アプリケーション担当者は、例えば負荷分散装置の対象となるサーバを即座に増やすなどができる。NexusのAPI を活用して、VLAN の設定をアプリケーション側が実施できるようなツールも作成中という。

 このように、サーバ担当者やアプリケーション担当者に対するさまざまな配慮を加えて実施した今回のデータセンター移行プロジェクトだが、うれしい誤算があったと岩崎氏は話す。

 「IaaS 環境への移行によってコストが劇的に下がることが分かった瞬間に、社内のアプリケーション運用担当者が積極的に移行を検討し始め、2012 年中は予想をはるかに上回る需要への対応に追われました」(岩崎氏)。

 これに伴い、ネットワークについても急速な増強を強いられた。しかし、大幅な拡張を想定して設計していたため、増強作業は実質的に、スイッチのポート数を増やす作業のみで済んでいるという。

複数データセンター間にまたがる新たなネットワークインフラ

 では、今後楽天におけるデータセンターネットワーキングは、どのように進化していくのだろうか。

 FabricPath は本来、単一データセンター内のネットワークに特化した技術だが、楽天では「複数データセンター間接続に使えるのではないか」と考え、実際に適用を開始したと、岩崎氏は話す。

 楽天は世界各国への展開を進めている。国内のデータセンターも 1 カ所では済まない。このため、複数のデータセンターにまたがって単一の VLAN を構成するなどのニーズはすでにあり、今後さらにこうしたニーズは高まっていくはずだという。これを実現するものとして、シスコは OTV などの、別の技術も提供している。だが、楽天としては自社でノウハウを十分に蓄積し、安心して使えると考える FabricPath の適用範囲を広げていきたかったのだという。

「実績は自分たちで作ればいい」

 大規模事例としては日本初となった今回の楽天による FabricPath 導入。「社内のエンジニアによる努力も大きかったですが、実績など自分たちで作ればいいということを改めて感じました。自分たちできちんと確認して、納得するということが非常に大事です。それができたのも、シスコのサポートがあったからこそだと考えています」と岩崎氏は胸を張った。

※この冊子は、@IT 2013年6月に掲載されたコンテンツを再構成したものです。
http://www.atmarkit.co.jp/ait/articles/1306/26/news004.html

導入ソリューション

  • Cisco Nexus 5000シリーズ
  • Cisco Nexus 2000シリーズ
  • FabricPath 技術

導入前の課題、検討事案

  • サービス規模拡大とともにスイッチの数が急増、効率が悪く、運用負荷が極度に増大した
  • ネットワーク構成が複雑化し、柔軟な運用が困難となってきた
  • サーバ仮想化基盤への移行に合わせ、これに適したネットワーク設計が求められた

導入効果

  • ネットワークインフラコストが劇的に低下
  • 効率的で柔軟な拡張が可能なネットワークインフラが実現
  • アプリケーション担当者自身がネットワーク関連の設定を自らできる環境の整備
楽天 サーバープラットフォームグループ サブマネージャー 岩崎磨氏

楽天 サーバープラットフォームグループ サブマネージャー
岩崎磨氏

楽天株式会社 Rakuten,Inc.

楽天株式会社 Rakuten,Inc.
本社所在地
〒140-0002
東京都品川区東品川 4-12-3
品川シーサイド楽天タワー
設立
1997 年 2 月 7 日
資本金
108,255 百万円 (2012 年 12 月 31 日現在)
URL
http://www.rakuten.co.jp/