E-HPC

プロダクト紹介

E-HPCとは

Elastic High Performance Computing (E-HPC) はコンピューティング能力を集約し、並列コンピューティングを使用して、科学、エンジニアリング、ビジネスの大きな課題を解決します。E-HPC は、人々の生活のほぼすべての側面に適用されます。E-HPC は、石油探査、金融、危機管理、医療、IT など、さまざまな分野の問題の解決に役立ちます。

E-HPC に対するスケーリングのニーズを満たすため、Alibaba Cloud は Elastic High Performance Computing (E-HPC) を発表しました。E-HPC は既存のインフラストラクチャに基づき、HPCaaS パブリッククラウドサービスとして、オールインワンのハイパフォーマンスコンピューティングサービスクラウドプラットフォームを提供します。

E-HPC は、高性能 CPU とヘテロコンピューティング GPU インスタンスを備えた Infrastructure as a Service (IaaS) をサポートします。また、ハイパフォーマンスコンピューティングソフトウェアスタックを備えた Platform as a Service (PaaS) と、アプリケーションテンプレートのカスタマイズ機能を備えた Software as a Service (SaaS) をサポートします。E-HPC は、大規模なコンピューティング能力を必要とする教育機関や科学研究機関にも適用されます。E-HPC は、E-HPC、AI、大規模データ分析などのアプリケーションをサポートします。

利点

従来のスーパーコンピューティングセンターとの比較

  • E-HPC はビジネスニーズに応じて購入でき、購入後すぐに使用できます。
  • E-HPC には、さまざまなオプションがあります。アプリケーションニーズに応じて、最も適切なコンピューティングリソース比率 (EGS インスタンスなど) を選択できます。
  • E-HPC は Alibaba Cloud プロダクトを完全に再利用し、データセキュリティと可用性を大幅に向上させます。

自己構築 HPC クラスターとの比較

  • E-HPC は、次の項目の CAPEX の大幅な削減に役立ちます。
    • ハードウェアシステムのコスト。
    • ソフトウェアライセンスのコストs (複数のコアとノード)。
    • サーバールームの建設、電力消費、冷却のコスト。
    • 毎日の O&M のコスト。
  • E-HPC を使用すると、ハードウェアのアップグレードに関する懸念がなくなります。
  • 堅牢なスケーラビリティにより、E-HPC はすべての Alibaba Cloud プロダクトと統合可能です。

自己構築クラウドサーバークラスターとの比較

  • E-HPC は、ソフトウェアスタック機能をサポートするすべての HPC アプリケーションをカバーする使いやすいソフトウェア管理サービスです。E-HPC は、HPC コミュニティ (OEM/OSV/ISV/ユーザー/開発者/オープンソースコミュニティ) と共にアップグレードできます。
  • E-HPC はソフトウェアライセンスを最適化してコストを節約します。
  • E-HPC は、クラスターノードの自動スケールアップ・スケールダウンサービスを提供します。

特徴

E-HPC は、最高のコンピューティング能力を備えたスーパーコンピューティングセンターと比較して、広範な適用範囲を持つハイパフォーマンスコンピューティングを提供します。

利便性

E-HPC では、ECS または EGS コンピューティングクラスターとクラスターマネージャーを作成し、短時間でハイパフォーマンスコンピューティング環境やアプリケーションプログラムをデプロイできます。これにより、コンピューティングの負荷が緩和され、優れたコンピューティング能力を備えたアプリケーションを構築できます。

柔軟性

E-HPC は、必要に応じて、またはタスクキューの使用状況に応じて、クラスターマネージャー内の計算ノードの数を増減できます。E-HPC は、実行時の負荷パフォーマンス要件を自動的に判断して、クラスターノードでの柔軟なコンピューティングを実現します。

セキュリティ

E-HPC は、ECS、EGS、または VPC が提供するマルチテナントでのセキュリティ分離によって高度に保護されています。

他の Alibaba Cloud プロダクトとの相互接続

E-HPC は、Alibaba Cloud のユーザーの習慣に合ったコンソールを使用し、Alibaba Cloud の他のプロダクトやサービスと連携します。

クイックスタート

概要

ここでは、Elastic High Performance Computing クラスターを E-HPC クラスター と呼びます。

このクイックスタートでは、E-HPC クラスターを作成し、オールインワンで設定し、ジョブを送信する方法について説明します。

E-HPC クラスターを購入して使用するには、次の手順で行います。

  1. E-HPC クラスターの作成
    1. ログイン管理
    2. ハードウェア構成
    3. ソフトウェア構成
    4. 基本設定
  2. ジョブの送信

注意:この手順は Web ベースのコンソールにのみ適用されます。API を使用したり、バッチ処理を実行する場合は、E-HPC OpenAPI の概要をご参照ください。

E-HPC クラスターの作成

ここでは、E-HPC クラスターを作成し設定する手順、構成リストを確認する方法、および詳細設定の使用方法を学習します。

一般的な設定

前提条件
  1. E-HPC コンソールにログインします。このコンソールにアクセスするには、まず登録済みアカウントが必要です。中国本土の最新の規則と規制に従って実名登録を完了するには、[無料アカウント] をクリックします。
  2. E-HPC > クラスタを選択し、リージョン (中国 (杭州) など) を選択して、[クラスタ作成] をクリックします。

注:E-HPC クラスターを作成、管理、または使用する場合、必要でない限り、ECS コンソールで単一のクラスターを操作しないでください。関連する操作は、E-HPC コンソールで実行する必要があります。

ステップ 1:ハードウェア構成

[ハードウェア構成] では、ゾーン、価格設定モデル、デプロイメント方法、計算ノード、管理ノード、ログインノードを設定します。

  1. ゾーンの選択
    E-HPC ノード間の効率的なネットワーク通信を確保するには、クラスター内のすべてのノードが同じゾーンでなければなりません。詳細は、「リージョンとゾーン」をご参照ください。E-HPC クラスターの作成時にターゲットリージョンが利用できない場合、「なぜ E-HPC クラスターは一部のリージョンで有効化できないのか」をご参照ください。
  2. 価格設定モデルの選択
    価格設定モデルは、クラスター内の ECS インスタンスに使用される課金方法です。Elastic IP アドレスと Network Attached Storage (NAS) の課金は含まれません。価格設定モデルには、サブスクリプション、従量課金、およびスポットインスタンスの課金方法があります。
  3. デプロイメント方法の選択
    • 標準:ログインノード、管理ノード、および計算ノードを個別にデプロイします。管理ノードに 2 つまたは 4 つの高可用性インスタンスを割り当てます。
    • シンプル:同じインスタンスにログインサービスと管理サービスをデプロイし、複数のインスタンスに計算ノードをデプロイします。
    • One-box:すべてのサービスをクラスター内の同じインスタンスにデプロイします。ローカルストレージか NAS を選択します。NAS はクラスター拡張をサポートしています。
    • クラスターを構成するノードタイプの指定
      E-HPC クラスターは、主に次のノードで構成されています。
      • 計算ノード:高パフォーマンスコンピューティングを実行します。
      • 管理ノード:このノードには、2 つの独立したサブノードが含まれます。
      • ジョブスケジューリングサブノード:ジョブのデプロイに使用されるスケジューラ。
      • アカウント管理サブノード:クラスターをデプロイするドメインアカウント管理ソフトウェア。
    • ログインノード:パブリック IP アドレスをサポートします。このノードにリモートでログインし、コマンドを使用して HPC クラスターを操作できます。

    ジョブスケジューリングサブノードはジョブのみを処理し、ドメインアカウント管理ノードはアカウント情報のみを処理します。したがって、高可用性を確保するには、一般的なエンタープライズレベルのインスタンス (最大 4 つの CPU を備えた sn1ne インスタンスなど) を選択することを推奨します。

    クラスターのパフォーマンスは、計算ノードのハードウェア構成に依存します。

    ログインノードは開発環境として構成します。クラスターのずべてのユーザーがソフトウェア開発とデバッグを行うために必要なリソースと共有クラスターテスト環境を備える必要があります。そのため、計算ノードと比較して CPU とメモリの比率が同等以上のログインノードを構成することを推奨します。インスタンスタイプの詳細は、「設定」をご参照ください。

    [次へ] をクリックして、ソフトウェアの構成を開始します

ステップ 2:ソフトウェア構成

イメージの種類、オペレーティングシステム、スケジューラ、およびアプリケーションを指定します。

  • オペレーティングシステムのオプションは、イメージの種類によって異なります。オペレーティングシステムは、クラスターのすべてのノードにデプロイされます。
  • スケジューラは、HPC クラスターにデプロイされるジョブスケジューリングソフトウェアです。クラスター内のジョブの送信に使用されるジョブスクリプトとパラメーターは、スケジューラによって異なります。
  • アプリケーションは、HPC クラスターにデプロイされる HPC ソフトウェアです。HPC は、GROMACS、OpenFOAM、LAMMPS など、さまざまなアプリケーション (対応するソフトウェアと操作の依存関係を含む) を提供します。クラスターの作成後、指定したアプリケーションはクラスターにプレインストールされます。
ステップ 3:基本構成

クラスター名とログインパスワードを指定します。

基本構成の名前はクラスター名です。クラスターのリストにこの名前が表示されます。必要なクラスターをこのリストで検索できます。

[ログイン設定] で、クラスターへのログインに使用するパスワードを入力します。このパスワードを使用して、ルートユーザーとしてログインノードにセキュアシェル (SSH) でリモートログインできます。

[利用規約] チェックボックスをオンにして、[OK] をクリックします。

構成リストの確認

クラスターの作成手順の横に表示される構成リストを確認できます。デフォルトでは、構成リストには一般的な構成のみが表示されます。詳細設定を表示するには、[詳細設定] を選択します。

トポロジー関係の確認

構成ページの上部にある [トポロジーを表示] をクリックすると、現在の構成のトポロジー関係を表示または非表示にすることができます。

トポロジー関係には、仮想プライベートクラウド (VPC) 名、VSwitch 名、NAS インスタンス名、およびログインノード、管理ノード、計算ノードの構成とインスタンス数が含まれます。

作成したクラスターのステータスの確認

クラスターのステータスを確認するには、クラスターを作成してから約 20 分後に [クラスタ] ページに戻リます。クラスター内のすべてのノードのステータスが [実行中] の場合、クラスターは作成されています。これで、このクラスターにログインして、関連する操作を実行できます。詳細は、「クラスターの使用」をご参照ください。

詳細設定

前の手順に従って、E-HPC クラスターを作成します。詳細設定で、さらに多くのパラメーターを指定することもできます。[ハードウェア構成] と [ソフトウェア構成] ページの下部にある [詳細設定] をクリックします。

高度なハードウェア構成

[クラスタ作成] > [ハードウェア構成] を選択し、[ハードウェア構成] ページの下部にある [詳細設定] をクリックしてパラメーターを指定します。

  1. ネットワーク設定

    Alibaba Cloud VPC コンソールで VPC と VSwitch を作成し、Alibaba Cloud ECS コンソールでセキュリティグループを作成できます。次に、必要な VPC、VSwitch、セキュリティグループを [ネットワーク設定] で選択します。[VPC を作成] や [VSwitch を作成する(サブネット用)] をクリックしてコンソールに移動し、コンポーネントを作成することもできます。

    注:
    • VPC と vSwitch を作成していない場合、デフォルトで VPC CIDR ブロックは 192.168.0.0/16 に、VSwitch CIDR ブロックは 192.168.0.0/20 に設定されます。
    • VPC を作成済みの場合、必要なゾーンに VSwitch を作成して、クラスターの作成手順を続行します。
    • 複数の VPC と VSwitch を作成した場合、クラスターの作成には最初の VPC と VSwitch が選択されます。VSwitchで使用可能な IP アドレスの数が、クラスター内のノードの数よりも多いことを確認してください。[詳細設定] で作成した VPC と VSwitch を選択することもできます。
  2. ストレージ
    E-HPC は、すべてのユーザーデータ、ユーザー管理データ、ジョブ共有データ、その他のストレージインスタンス情報を保存します。クラスター内のすべてのノードがこの情報にアクセスできます。E-HPC では Network Attached Storage (NAS) を使用して情報を保存します。NAS を使用するには、マウントポイントとリモートディレクトリを指定します。詳細は、「NAS の概要」をご参照ください。
    注:
    • 現在のゾーンで NAS インスタンスとマウントポイントを作成していない場合、クラスター作成時のゾーンのデフォルト NAS インスタンスとマウントポイントが使用されます。
    • 現在のゾーンに複数の NAS インスタンスとマウントポイントを作成している場合、クラスター作成時のゾーンの最初の NAS インスタンスとマウントポイントが選択されます。この NAS インスタンスで使用可能なマウントポイントがゾーン内にない場合、クラスター作成時にマウントポイントが作成されます。マウントポイントが作成される前に、すべてのゾーン間でこの NAS インスタンスに作成されるマウントポイントの数がしきい値に達していないことを確認してください。
高度なソフトウェア構成

[クラスタ作成] >[ソフトウェア構成] を選択し、[ソフトウェア構成] ページの下部にある [詳細設定] をクリックしてパラメーターを指定します。

クラスターのデプロイ後に実行されるスクリプトの指定

クラスターをデプロイした後に自動的に実行されるスクリプトを指定します。スクリプト URL は、指定したスクリプトのあるアドレスです。スクリプトは Object Storage Service (OSS) に保存されます。このスクリプトが保存されている OSS ファイルの URL を入力できます。引数は、スクリプトの実行に必要なコマンドラインパラメーターです。

ソフトウェアバージョン

リストに表示されるドメインサービスとターゲットソフトウェアを選択できます。

mpich や openmpi などの依存ソフトウェアに従って、プレインストールされた E-HPC アプリケーションを選択できます。アプリケーション名のサフィックスは、依存ソフトウェアを示します。”-gpu” というサフィックスが付いたソフトウェアを選択する場合、計算ノードで GPU インスタンスを使用していることを確認してください。そうしないと、クラスターを作成できないか、アプリケーションが正しく実行されない可能性があります。

クラスターの使用

E-HPC クラスターがない場合、まず E-HPC クラスターの作成を行います。

前提条件

E-HPC クラスターを作成したら、通常のクラスターユーザーと管理者の使用状況とニーズに基づいて、ルート以外のアカウントを作成します。詳細は、「ユーザー管理」をご参照ください。

また、計算するデータを E-HPC クラスターにインポートできます。詳細は、「データのインポート」をご参照ください。

クラスターへのログイン

E-HPC クラスターのログインノードのパブリック IP アドレスを取得する方法、および E-HPC 管理者から付与された通常の権限でクラスターにログインする方法については、「ログインノード」をご参照ください。

クラスターの使用

ログインノードにアクセスしたら、「ジョブ送信」の指示に従い、専用のスケジューリングツールを使用してコンピューティングジョブを送信することを推奨します。

注:他のユーザーが送信したジョブ操作に影響しないよう、クラスター管理者以外のユーザーは E-HPC クラスターのイントラネット IP アドレスを使用してコンピューティングノードにログインしないでください。

イメージ、スケジューラ、アカウントタイプ

イメージ

E-HPC は、パブリックイメージ、カスタムイメージ、共有イメージ、マーケットプレイスイメージによるクラスターの作成をサポートしています。イメージを選択すると、クラスター内のすべてのインスタンスがこのイメージを使用して作成されます。E-HPC クラスターの作成でソフトウェアを構成する際、イメージの種類とイメージを選択できます。

E-HPC

次の表に、サポートされているイメージを示します。

パブリックイメージ カスタムイメージ 共有イメージ マーケットプレイスイメージ
CentOS_7.2_64 CentOS 7.2/7.3/7.4, 64-bit CentOS 7.2/7.3/7.4, 64-bit。イメージは、パブリックイメージから作成する必要があります。 CentOS 7.2, 64-bit。イメージは、パブリックイメージから作成する必要があります。
CentOS_6.8_64 CentOS 6.8/6.9, 64-bit。イメージは、パブリックイメージから作成する必要があります。 CentOS 6.8/6.9, 64-bit。イメージは、パブリックイメージから作成する必要があります。 CentOS 6.8, 64-bit。イメージは、パブリックイメージから作成する必要があります。

[イメージの種類] ドロップダウンメニューには、すべてのイメージタイプが含まれているとは限りません。たとえば、カスタムイメージタイプが表示されない場合、サポートされているカスタムイメージは、現在のリージョンの特定のアカウントで利用できないことを示します。

カスタムイメージを作成する方法、イメージを共有する方法、およびイメージマーケットプレイスで公開する方法については、「スナップショットを使用したカスタムイメージの作成」、「イメージの共有」、「マーケットプレイスイメージ」をご参照ください。

クラスタースケジューラ

E-HPC は、PBS Pro、Slurm、および Grid Engine (SGE) クラスターをサポートしています。次の表に、サポートされているスケジューラを示します。

オペレーティングシステム サポートされているスケジューラ
CentOS 7.2/7.3/7.4, 64-bit PBS Pro、Slurm
CentOS 6.8/6.9, 64-bit PBS Pro、Grid Engine

E-HPC クラスターの作成でソフトウェアを構成する際、イメージを選択します。サポートされているスケジューラが表示されます。

イメージ
イメージ

ドメインサービス

E-HPC は NIS または LDAP ドメインアカウントをサポートします。クラスターの作成でソフトウェアを構成する際、[詳細設定] をクリックします。ドメインサービスが表示されます。デフォルトで NIS が選択されています。

イメージ

ユーザーガイド

概要

このセクションでは、E-HPC コンソールを使用して、Elastic High Performance Computing (E-HPC) クラスター、ノード、ユーザー、共有ストレージを管理する方法の詳細な手順を説明します。E-HPC の特徴や機能をより深く理解できるようになります。また、開発者は Open API を使用して E-HPC を管理できます。

Alibaba Cloud E-HPC の機能と料金の詳細は、E-HPC プロダクトのホームページにログインしてください。サポートが必要な場合は、チケットを起票し、サポートセンターへお問い合わせください。

ノード管理

-HPC クラスタがない場合は、まず E-HPC クラスター作成 を実行します。
E-HPC コンソールは、ノードクエリ、再起動、リセット、およびリリースを含む E-HPC クラスタノードの機能を提供します。

ノードコントロールページに移動

E-HPCコンソール にアクセスし、左側のナビゲーションペインで ノード をクリックします。

ノードを選択する

調整するノードを選択するには、次の手順を実行します。

    1. リージョンを選択してください。
      リージョンの詳細については、リージョンとゾーン を参照してください。
      ノードは、ノードが属するクラスターのリージョンを継承します。リージョンを使用して、目的のノードのクラスターを見つけます。
    2. クラスタを選択します。
      Cluster の横にあるドロップダウンリストをクリックし、目的のノードが含まれているクラスタの名前を探します。
    3. ノードタイプの選択

    E-HPC クラスタは、主に以下のノードを含みます。
  • スケジューリングサーバーとドメインアカウントサーバーを含むコントロールノード
  • スケジューリングサーバー:このサーバーは、スケジューリング・ツール(PBS や SLURMなど) を実行し、ジョブの送信、スケジューリング管理などを処理するために使用されます。
  • ドメインアカウントサーバー:このサーバーは、 E-HPC クラスターのユーザーアカウントの集中管理を行います。
  • コンピューティングノード
  • このサーバーは高性能コンピューティングジョブを実行します。その構成は、 E-HPC クラスタの全体的なパフォーマンスを決定します。
  • ログインノード
  • これは、通常の E-HPC クラスタユーザーが操作できる唯一のノードです。ログインノードでソフトウェアのデバッグ、コンパイル、インストール、およびジョブの送信を実行できます。

ノード管理

ノードを再起動する

注:特殊な状況(障害修復など) でない限り、 実行中 ステータスのノードを再起動しないでください。

再起動 をクリックし、ポップアップウィンドウで 通常再起動 または 強制再起動 を選択します。

  • 通常再起動:ノード(CentOSなど) 上で実行されているオペレーティングシステムにリモートから再起動コマンドを送信すると、オペレーティングシステムはすべてのプロセスを終了してシステムを再起動します。これは、Ctrl + Alt + Del を使用して物理マシンを再起動するのと同じです。
  • 強制再起動:ノードで実行中のインスタンスを直接再起動します。物理マシンのリセットボタンを押すのと同じです。一般に、強制再起動メソッドは、通常再起動が無効な場合にのみ使用されます。
ノードをリセットする

注:特殊な状況(障害修復など) でない限り、実行中 ステータスのノードをリセットしないでください。

その他の ドロップダウンリストから、ノードのリセット をクリックします。確認すると、ノードのリセットプロセスがトリガーされています。

  1. 現在のノードは、ECS インスタンス作成時に初期状態に復元されます。
  2. E-HPC 制御システムは、スケジューラ構成またはドメインアカウント管理構成を含めて、再インストールされ、初期化されます。
  3. E-HPC クラスタソフトウェアスタックが再インストールされます。
  4. ノードは E-HPC クラスタに追加されます。

ノードの再起動で障害を修復できない場合は、ノードをリセットしてください。

ノードを削除する

注 :クラスタから削除することができるのは、計算ノード だけです。制御ノード および ログインノード は削除できません。また、現在のところ、計算ノードを削除することでのみ、クラスタのサイズを変更できます。計算ノードの追加については、クラスタのサイズ変更 を参照してください。

その他 ドロップダウンリストから、ノード削除 をクリックします。確認をクリックすると、ノードは停止され、解放されます。

ユーザー管理

E-HPC クラスタがない場合は、まず E-HPC クラスター作成 を実行します。

E-HPC コンソールは、ユーザーの作成、ユーザー権限の変更、ユーザーパスワードのリセット、およびユーザーの削除など、 E-HPC クラスタユーザーのための機能を提供します。

ユーザー管理ページに移動する

E-HPCコンソール にアクセスし、左側のナビゲーションペインで User をクリックして、ユーザー管理ページに移動します。

ユーザーを作成する

注:クラスタが作成されると、デフォルトでは root 以外のユーザーは作成されません。ここでは、root 以外のユーザーを作成するためのプロセスを説明します。root ユーザーは、クラスタ作成中にのみ初期化(パスワード設定などを含む) することができます。

右上隅の ユーザの作成 をクリックし、ポップアップウィンドウでユーザ情報を設定します。命名規則とパスワード強度要件に注意してください。

ユーザーグループ ドロップダウンリストから 2 つのユーザータイプのいずれかを選択します。

  • 通常のアクセス権グループ:このグループは、Sudo 権限のない root 以外のユーザー用です。ジョブの送信とデバッグのために、通常の E-HPC クラスタユーザーにこのタイプを推奨します。
  • Sudo 権限グループ:このグループは、Sudo を使用してコマンドを実行する root 以外のユーザー用です。このタイプは、 E-HPC クラスター管理者にお勧めします。注:誤操作( E-HPCソフトウェアスタックモジュールの削除など) がクラスタ障害につながる可能性があるため、この権限グループを使用する場合は注意が必要です。
  • OK をクリックしてクリエーションを完了します。これで、このページのユーザーリストにユーザー情報が表示されます。

権限を変更する

ユーザーリストでユーザー名を探し、 アクション カラムの 許可 をクリックします。

ユーザーグループ ドロップダウンリストから権限グループを選択し、 OK をクリックして操作を完了します。

パスワードをリセットする

E-HPC はパスワード回復機能を提供していません。パスワードが紛失または開示された場合は、パスワードリセット機能を使用してパスワードをリセットすることができます。ユーザーリストでユーザー名を探し、 アクション カラムの ユーザーパスワード をクリックします。

新しいパスワードは、パスワード強度の要件に準拠している必要があります。

ユーザーを削除する

ユーザーリストでユーザー名を探し、 アクション カラムの 削除 をクリックします。

注:削除されたユーザー名の /home ディレクトリは消去されませんが、$HOMEディレクトリのデータは、同じ名前のユーザーを作成しても再利用されません。ただし、他のユーザーは引き続きデータにアクセスできます。

自動スケール

Elastic High Performance Computing (E-HPC) では、自動スケール機能により、ユーザーがカスタマイズしたスケーリングルールに基づいてクラウドリソースを動的に割り当てることができます。たとえば、クラスターのワークロードに基づいてコンピューティング能力のサイズを変更できます。自動スケール機能は、次の利点があります。

  • 人間の介入を減らし、メンテナンスにかかるコストを削減します。
  • 可用性を確保すると同時に、フリートのコストを最小限に抑えます。
  • フォールトトレランスを向上させます。自動スケールはヘルスチェックを実行し、異常なインスタンスを停止したり、クラスターに新しいインスタンスを追加したりします。
  • 可用性を向上します (十分なコンピューティング能力があることを確認してください)。

自動スケールサービスの設定

自動スケールサービスは、デフォルトでは無効になっています。有効にするには、E-HPC コンソールにログインし、左側のナビゲーションウィンドウで [自動スケール] をクリックします。

自動スケールサービスの設定

パラメーター

  • EnableGrow:自動スケールアウトを有効にするかどうか。
  • GrowIntervalInMinutes:いつどのようにスケールアウトするかを判断するためにワークロードをチェックする間隔。デフォルト値は 2 分で、値の範囲は 2 から 10 分です。
  • GrowTimeoutInMinutes:ノードの起動に必要なタイムアウト値。デフォルト値は 20 分で、値の範囲は 10 から 60 分です。この期間中にノードのステータスが [実行中] にならない場合、ノードはリリースされ、次のサイズ変更キューに置かれます。
  • ExtraNodesGrowRatio:必要なノードとともにクラスターに追加される予備ノードの割合。デフォルト値は 0 で、値の範囲は 0 から 100 です。ワークロードの処理に 100 ノードが必要で、ExtraNodesGrowRatio 値が 2 の場合、追加されるノードの数は 102 です。
    たとえば、MPI ジョブの実行に 32 ノードが必要とします。32 のノードが追加された場合、1 つのノードが正しく機能しないと他の 31 のノードは [アイドル] になり ([実行中] にはなりません)、ジョブプロセス全体のエラーにつながります。このオプションを使用すると、クラスターは 35 ノードにスケールアウトされるため、障害の可能性をある程度減らすことができます。予備ノードは直ちにリリースされます。この動作は、可用性を確保しながら、ほとんど無視できる程度のコストしか増加しません。
  • GrowRatio (ワークロードに基づく):ワークロードに必要なノード数に対して、実際に追加されるノードの割合。デフォルト値は 100 で、値の範囲は 1 から 100 です。たとえば、ワークロードには 10 の新規ノードが必要で、GrowRatio が 50 とします。この場合、5 つのノードが追加されます。
    たとえば、10 個のジョブが実行可能な状態で、各ジョブで 1 つのノードを実行するのに数分間かかるとします。スケーリング設定に基づくワークロードに従って、10 個のノードが追加されます。ただし、各ノードが [実行中] のステータスになるには数分かかります。GrowRatio を使用すると、5 つのノードのみを追加して最初の 5 つのジョブを同時に実行し、その後で残りの 5 つを実行することができます。GrowRatio を使用して、クラスターの使用率を向上させることができます。
  • MaxNodesInCluster:クラスターの最大ノード数。デフォルト値は 100 です。最小値は 1 です。
  • EnableShrink:自動スケールインを有効にするかどうか。
  • ShrinkIntervalInMinutes:スケールインするかどうか、およびどのようにスケールインするかを判断するためにワークロードをチェックする間隔。デフォルト値は 2 分で、値の範囲は 2 から 10 分です。

    注:ShrinkInterval>= GrowInterval

  • ShrinkIdleTimes:スケールインのチェック時にノードのステータスが連続して [アイドル] ステータスになる回数。デフォルト値は 3 で、値の範囲は 2 から 5 です。デフォルトでは、自動スケールインのチェック時に連続して 3 回 [アイドル] ステータスになったノードはリリースされます。つまり、デフォルトでは 6 分間連続で [アイドル] のノードは、 リリースされます。
  • ExcludeNodes:自動スケールを適用しないノードのリスト。各ノードを半角コンマで区切ります。このオプションを使用して、クラスターで実行される最小ノード数を保つことができます。

シナリオと設定

通常、自動スケールサービスは、サブスクライブされたリソースやサービスを使用しないユーザーに適用されます。例:

    • E-HPC クラスターを使用して複数の大規模なコンピューティングジョブを 1 日数時間だけ集中的に処理し、その後コンピューティングリソースをリリースする。
    • ワークロードのフローが 1 日を通して変動するため、1 日 24 時間ずっと高いワークロードを処理する必要がない。

さまざまなジョブタイプとクラスターの使用状況に基づいて、パラメーターを選択し設定できます。たとえば、各ジョブを短時間実行して、複数の大規模なコンピューティングジョブを実行する場合、GrowRatio を使用します。1,000 個のジョブを実行する必要があり、各ジョブで 1 つのノードを 1 分間実行する場合、GrowRatio 値を 10 に設定すると、100 個のノードが追加されます。

E-HPC クラスターでの LAMMPS の実行

  1. クラスターを作成し、インストールするアプリケーションを選択します。
    E-HPC クラスターでの LAMMPS の実行
  2. 自動スケールの設定:自動スケールアウトと自動スケールインを有効にします。
    E-HPC クラスターでの LAMMPS の実行
  3. ワークロードが増加しない場合、予備ノードは数分でリリースされます。
  4. クラスターのユーザーを作成します。
    E-HPC クラスターでの LAMMPS の実行
  5. データの保存先として Network Attached Storage (NAS) 共有ストレージを選択します。
  6. コンソールか SSH を介してクラスターにアクセスし、ジョブを送信します。
    E-HPC クラスターでの LAMMPS の実行
    E-HPC クラスターでの LAMMPS の実行
  7. 2 つのノードは 2 分以内にクラスターに自動的に追加され、コンソールで確認できます。
    E-HPC クラスターでの LAMMPS の実行
  8. 数分後、ノードは準備が整い、処理中のジョブを確認できます。
    E-HPC クラスターでの LAMMPS の実行
  9. 完了後、コンソールでジョブの詳細を確認できます。
    E-HPC クラスターでの LAMMPS の実行
  10. 数分後、予備ノードがリリースされます。
    E-HPC クラスターでの LAMMPS の実行
  11. さらに、数分後に自動スケールログも確認できます。
    E-HPC クラスターでの LAMMPS の実行

ログインノード

E-HPC クラスターを作成すると、各ログインノードにパブリック IP アドレスが自動的に割り当てられます。

注:E-HPC クラスターがない場合、まず E-HPC クラスターの作成を行います。

  1. E-HPC コンソールにログインします。
  2. 左側のナビゲーションウィンドウで [ノードとキュー] をクリックし、作成したクラスターの名前をドロップダウンリストから選択します。
  3. [ノードタイプ] ドロップダウンリストから、[ログインノード] を選択します。テーブルの [ノード ID / IP アドレス] 列に、各ログインノードのパブリック IP アドレスが表示されます。

クラスターを作成する最後のステップでキーペアを生成した場合、キーペアによるログイン方法がサポートされているターミナルソフトウェア (Putty など) でのログインに使用できます。セキュリティ強化と利便性向上のため、この方法を推奨します。キーペアを作成していない場合、事前設定されたルートパスワードを使用して、通常の SSH 端末からログインできます。デフォルトのログインシェルは bash です。

注:ログインパスワードは安全に保管し、他者に知られないようにしてください。

インポートデータ

データをアップロードする

ユーザジョブデータと実行ファイルは、OSS を使用して E-HPC クラスタにインポートされます。

  • OSS バケットを作成していない、または OSS を理解していない場合は、OSSホームページとOSS 有効化 を参照してください。リージョン間の遅延を避けるため、 E-HPC クラスターと同じリージョンで OSS を有効にすることをお勧めします。
  • OSS をアクティブ化したら、バケットを作成する必要があります。詳細については、バケット作成 とエンドポイント を参照してください。

ジョブ関連ファイルを OSS バケットにアップロードする方法の詳細については、OSSファイルのアップロード を参照してください。

ファイルをインポートする

ログインすると、HTTP を使用して VPC エンドポイントにアクセスし、ジョブファイルをインポートできます。

ここでは、ジョブスクリプトが test.py 、ジョブデータが test.data であり、 E-HPC クラスターとOSS が両方とも杭州 (中国東部 1) リージョンにあり、ジョブファイルを含む、名前が e-hpc-quickstart、test.py および test.data のOSS バケットはこのバケットのルートディレクトリにあります。

  1. cd /ehpcdata
  2. wget http://e-hpc-quickstart.vpc100-oss-cn-hangzhou.aliyuncs.com/test.py
  3. wget http://e-hpc-quickstart.vpc100-oss-cn-hangzhou.aliyuncs.com/test.data

現在のシステムイメージに wget がインストールされていない場合は、ソフトウェアソースを使用してインストール(yum install wgetなど)、あるいは代わりにcurlを使用できます。

  1. cd /ehpcdata
  2. curl -O http://e-hpc-quickstart.vpc100-oss-cn-hangzhou.aliyuncs.com/test.py
  3. curl-O http://e-hpc-quickstart.vpc100-oss-cn-hangzhou.aliyuncs.com/test.data
プライベートバケットファイルの一時アクセスリンク

バケットがプライベートに設定されている場合は、OSSコンソール を使用して必要なファイルを選択し、一時的な署名済み URL を取得できます。(一時的なOSSAccessKeyId および他のパラメータを使用したアクセスリンク) をインポートします。カスタム署名が有効になったら、 Copy File URL をクリックして、一時的な外部アクセスの URL を取得します。

CloudMetrics

CloudMetrics for Elastic High Performance Computing (E-HPC) は、 E-HPC クラスターのパフォーマンスのモニタリングと分析を行うプラットフォームを提供します。CloudMetrics を使用して、クラスターのパフォーマンスメトリックのモニタリング、クラスターのパフォーマンス履歴の表示、リソース使用率の高いプロセスの分析が可能です。

注:使用できる E-HPC クラスターがない場合、まず E-HPC クラスターの作成を行います。

CloudMetrics ページへのアクセス

E-HPC コンソールにログインし、左側のナビゲーションウィンドウで [CloudMetrics] をクリックして、[CloudMetrics] ページに移動します。

[CloudMetrics] ページには、[ダッシュボード]、[ノード性能]、[プロセス性能]、[性能解析] の 4 つのタブページがあります。

ダッシュボード

[ダッシュボード] タブページには、クラスターの基本情報やノードのパフォーマンスヒートマップなど、ユーザーのクラスター情報が表示されます。左側には、クラスター名、クラスター ID、構成済みのリソース (メモリ容量や CPU コアの数など) を含む、基本的なクラスター情報が表示されます。タブページの中央には、[ノード]、[プロセス]、[解析]、[設定] のアイコンがあります。[ノード]、[プロセス]、[解析] のアイコンをクリックすると、それぞれ [ノード性能]、[プロセス性能]、[性能解析] のタブページに移動します。[設定] アイコンをクリックすると、ダッシュボードのパフォーマンスメトリックを指定できます。メトリックは、CPU 使用率、メモリ使用率、ネットワークスループット、ディスクスループット、ディスク使用率から最大 3 つを選択できます。

ノードのパフォーマンスヒートマップは、タブページの中央に表示されます。暗い色は、指定されたメトリックの負荷が高いことを示します。ヒートマップ上でノードをクリックすると、ノードは青い境界線で表示されます。続いて、[ノード] アイコンをクリックすると、ノードのパフォーマンスが表示されます。

ノード性能

[ノード性能] タブページでは、特定のクラスターのノードのパフォーマンスメトリックのクエリが可能です。左側のペインでクラスターとノードを、右側のペインでパフォーマンスメトリックを選択できます。選択が終わると、ノードのパフォーマンス履歴がグラフで表示されます。[ジョブの選択] ドロップダウンリストから、過去に E-HPC コンソールで送信されたジョブを選択することもできます。CloudMetrics では、関連するノードとジョブの開始/終了時間が自動的にリストされるので、ジョブのパフォーマンスを簡単にクエリできます。

  • ノードベースでパフォーマンスデータが表示されている場合、サブグラフには 1 つのノードのパフォーマンスデータが表示され、曲線は 1 つのメトリックのデータを示します。
  • メトリックベースでパフォーマンスデータが表示されている場合、サブグラフには 1 つのメトリックのパフォーマンスデータが表示され、曲線は 1 つのノードのデータを示します。

プロセス性能

[プロセス性能] タブページでは、特定のノードのプロセスパフォーマンスデータのクエリと分析が可能です。左側のペインでクラスターとノードを選択することができ、一定期間内の上位 5 プロセスの CPU 使用率を示すグラフが表示されます。グラフ上でポインターを移動すると、特定の期間における上位 5 プロセスの情報がグラフの下に表示されます。[ジョブの選択] ドロップダウンリストから、過去に E-HPC コンソールで送信されたジョブを選択することもできます。CloudMetrics では、関連するノードとジョブの開始/終了時間が自動的にリストされるので、ジョブのパフォーマンスを簡単にクエリできます。

グラフをクリックすると、5 つのボタンがグラフの上に表示され、性能解析を開始できます。各ボタンのテキストは、”Profiling 37” など、”Profiling” と上位 5 つのプロセスのいずれかの ID からなります。いずれかのボタンをクリックすると、性能解析を実行できます。

性能解析を実行するには、[解析設定] ダイアログボックスで [解析時間] と [周波数] を指定する必要があります。必要なパラメーターを指定して [OK] をクリックすると、ノードのプロセスの関数実行情報が分析されます。分析結果は、[性能解析] タブページに表示されます。

性能解析

[性能解析] タブページでは、解析結果のクエリと表示が可能です。左側のドロップダウンリストでクラスターを選択することができ、クラスターの解析レコードが自動的にリストされます。各レコードの詳細情報を確認できます。[表示] をクリックして、パフォーマンスデータを示すフレームグラフを表示することもできます。このグラフでは、関数実行情報を取得し、CPU 使用率が高い関数を分析できます。この情報を使用してパフォーマンスを調整できます。

LSF クラスターの作成

Elastic High Performance Cluster (E-HPC) では、Load Sharing Facility (LSF) クラスターを作成し、ビジネスニーズに応じてクラスターのサイズを変更したり、ジョブとユーザーを管理したりできます。LSF クラスターの作成を開始する前に、まずカスタム LSF イメージを作成し、コンソールから LSF クラスター作成関数をリクエストします。

LSF カスタムイメージの作成

現在、サポートされている LSF バージョンは 10.1 で、サポートされているオペレーティングシステムは CentOS 6.8 または 6.9 です。

  1. ECS コンソール にログインし、インスタンスを作成して、イメージに [CentOS] と [6.9 (64 ビット)] を選択します。create ecs instance
    ECS コンソール
  2. SSH でインスタンスにログインし、LSF 10.1 のインストール設定とライセンスファイルを /usr/local/lsf_distrib ディレクトリにコピーします。
例:
  1. lsf10.1_lsfinstall_linux_x86_64.tar.Z
  2. lsf10.1_linux2.6-glibc2.3-x86_64.tar.
  3. ......
  1. インストールファイルを解凍します。
    1. cd /usr/local/lsf_distrib
    2. zcat lsf10.1_lsfinstall_linux_x86_64.tar.Z | tar xvf -
  2. 次のように install.config ファイルを変更します。
    1. LSF_TOP="/opt/lsf"
    2. LSF_ADMINS="lsfadmin"
    3. LSF_CLUSTER_NAME="ehpc-lsf-cluster"
    4. LSF_MASTER_LIST="<LSF_MASTER_LIST>"
    5. LSF_ENTITLEMENT_FILE="/usr/local/lsf_distrib/platform_lsf_std_entitlement.dat"
    6. LSF_TARDIR="/usr/local/lsf_distrib/"
    7. SILENT_INSTALL="Y"
    8. LSF_SILENT_INSTALL_TARLIST="All"
    9. ACCEPT_LICENSE="Y"
  3. ed をインストールします。
    1. yum -y install ed
  4. ECS コンソールにログインし、[インスタンスリスト] ページで [カスタムイメージの作成] を選択します。
    カスタムイメージの作成
    詳細は、「インスタンスを使用したカスタムイメージの作成」をご参照ください。

カスタムイメージによる E-HPC クラスターの作成

  1. E-HPC コンソールにログインし、クラスターを作成します。
  2. ソフトウェア構成の際、以前に作成したカスタムイメージを選択し、スケジューラとして LSF を選択します。
    カスタムイメージの作成

構成ウィザードに従ってクラスターを作成します。詳細は、「E-HPC クラスターの作成」をご参照ください。

FAQ

よくある質問

なぜ E-HPC クラスターは一部のリージョンで有効化できないのか

基本的に、一部のリージョンおよびゾーンで E-HPC クラスタの起動に失敗する理由は次のとおりです。

  • NAS がこのリージョンには配備されていないため、 E-HPC クラスターの共有ストレージを作成することができません。
  • リージョンとゾーンに、 E-HPC クラスタの計算ノード構成(たとえば、GPU インスタンスなし)に沿った ECS インスタンスタイプがありません。
  • LSF_ENTITLEMENT_FILE="/usr/local/lsf_distrib/platform_lsf_std_entitlement.dat"
  • リージョンとゾーンに、 E-HPC クラスタで必要なノードを作成するのに十分なリソースがありません。

特別な要件がない場合は、別のリージョンを選択してクラスタを作成してください。

NAS マウントディレクトリのルール

クラスターを作成するときは、NAS マウントポイントとリモートディレクトリを指定します。
ユーザーの設定が次のようになっているとします。

  1. ClusterId=ehpc-mrZSoWfz8M # E-HPC クラスター ID
  2. VolumeMountpoint=045324a6dd-meb81.cn-hangzhou.nas.aliyuncs.com # NAS mount point
  3. RemotePath=/pbs/home # リモートディレクトリ

新しく作成されたクラスターのノード (計算ノードなど) で、マウントロジックは次のようになります。

  1. クラスター名に基づいて、リモートディレクトリにレベル 2 およびレベル 3 のディレクトリを作成します。
    1. /pbs/home/ehpc-mrZSoWfz8M/opt
    2. /pbs/home/ehpc-mrZSoWfz8M/home
  2. 以下のマウント操作を実行します。
    1. Mount /pbs/home to /ehpcdata
    2. Mount /pbs/home/ehpc-mrZSoWfz8M/home to /home
    3. Mount /pbs/home/ehpc-mrZSoWfz8M/opt to /opt
    注:NAS 用のリモートディレクトリは事前に作成する必要があるため、通常はデフォルトのルートディレクトリとして設定されます。
    1. RemotePath=/

上記のルート以外のディレクトリを使用する設定は、参照用です。

なぜ ECS コンソールで E-HPC クラスターノードを操作できないのか

E-HPC クラスタは ECS に基づいて作成されますが、 E-HPC は次のような追加の展開手順があります。

  • 事前定義されたノード比率 (例えば、高可用性がアクティブになったときの制御ノード、ログインノード、計算ノードの比が 4:1:n) と指定されたインスタンス設定に基づいて、すべてのノードタイプに対して ECS をバッチでアクティブ化します。
  • ECS がすべてのノードに対してアクティブ化された後、制御システムを展開します。
  • 制御システムを使用して、選択したソフトウェアおよび依存パッケージをプリインストールします。
  • ノードタイプに基づいてジョブスケジューラーのサーバーとクライアントを設定します。

前述の操作および関連するサービスは、 E-HPC クラスタ展開手順に依存します。ECS コンソールでノードを操作すると、クラスタの作成エラー、ノードの切断、システムのスケジューリングの失敗などの例外が発生することがあります。したがって、トラブルシューティングの目的以外でECS コンソールを使用して E-HPC クラスタノードを操作しないでください。

特別な要件がある場合は、E-HPC 開発およびメンテナンス担当者の指導のもとで、ECS コンソールでノード操作を行ってください。