Gridware Cluster Scheduler(GCS)

GPU と CPU を最大限に活かす
HPC/AI 時代のジョブスケジューラ

GCS は、科学技術計算やAI/データ解析の現場で必須となるジョブ投入・割り当て・実行を最適化し、クラスター資源の利用率を高めます。Sun/Univa/Altair 系の SGE インターフェース(qsub/qstat/qdel など)との互換性を持ち、既存環境からの移行もスムーズです。

SGE → UGE/AGE → GCS の進化

GCS導入のメリット

小規模から大規模まで対応するスケーリングや堅牢性、ジョブスケジューラーとしての機能・性能は言うまでもなく、以下のような特徴を持ちます。

GPU ジョブに対する強み

継続的な機能強化により、GPU使用の最適化を訴求することが可能です。GPUを使用するジョブ設定が簡素化され、NVIDIA DCGM との統合により、GPU の利用状況・電力・エラーなどをジョブ単位で取得することができます。

ライセンスの最適利用

ソフトウェアライセンス消費をスケジューリングに組み込めます。特に高価なライセンスを使用する分野で過剰利用防止や実利用状況の可視化によるコスト最適化に役立ちます。

長い歴史 & 先進的開発

GCS は "Grid Engine の公式後継" を掲げ、豊富なSGE 互換性を持ちつつ独自の進化(GPU、セキュリティ、可観測性など)を継続しています。慣れた操作感で強化された機能を使用することができます。移行の学習コストを下げることができます。

GCS のジョブ管理機能

  • ジョブスケジューリングとリソース割り当て
  • ジョブのバインディング(CPU/メモリ/NUMA配置)
  • GPU を利用するジョブの管理
  • ライセンス消費を伴うジョブの管理
  • ジョブ状態の管理・待機・エラー処理


GCS 主な機能のハイライト

NUMA / CPU バインディングTopology-Aware Binding

刷新されたトポロジー対応バインディングフレームワーク

  • NUMA ドメインソケットL2/L3 キャッシュコアスレッド単位での厳密なジョブ割り当てが可能
  • スケジューラ主導のバインディング決定
  • 詳細なコントロールが可能な -b オプションの追加
  • P/E コア混在のハイブリッド CPU に対応
  • Reservation(予約)や AR(アドバンスリザベーション)との連携

GCS 9.1.0 における設計の刷新により、より細かな単位での "消費可能リソース" の割り当てが可能になります。キャッシュローカリティやメモリ帯域が重要な HPC ワークロードにおいて、最適なジョブの配置が実現可能です。

GPU 管理GPU Management

GPU ワークロードの最適化と見える化を実現

  • DCGM(Data Center GPU Manager)を使用した GPU 情報の収集
  • GPU 利用量・電力使用量の自動記録(qacct への統合)
  • ジョブごとの prolog/epilog で GPU 環境のセットアップが可能

NVIDIA GPU のサポートが強化されました。GPU を "消費可能リソース" として、ジョブに割り当てることが可能です。qgpu(GPU 管理専用のサブシステム/コマンド)の強化、DCGMと連携したGPUテレメトリの収集や可視化も提供されます。

ソフトウェアライセンス連携Software Licence Integration

FlexNet(FLEXlm)ライセンスマネージャとの連携

  • FlexNet ライセンスフィーチャの自動検出リソースへの自動反映
  • 外部アプリケーションによるライセンス消費を追跡
  • ライセンス枯渇によるジョブ失敗の防止
  • qtelemetry によるライセンスメトリクスの取得

ソフトウェアライセンス消費をスケジューリングに組み込むことで、ライセンス制約のあるジョブの効率化を図ることができます。特に高額なライセンスを必要とする分野で大きなメリットがあります。

ジョブ管理機能Job-Contorol

強化されたジョブの管理、待機・エラー処理機能

  • Automatic Session 管理によりクライアント取得データの整合性を保証
  • ジョブを systemd scope 内で実行することによる cgroup ベースのリソース管理
  • 失敗ジョブのスプールファイルを一箇所に収集保存
  • ライセンスやメモリ等を実行中に解放可能
  • 依存ジョブの「終了」を待機するオプションに加え「実行開始」を待機するオプションの追加

従来のジョブ管理機能に加え、cgroup ベースのリソース管理や失敗ジョブ収集などの機能が追加されました。自動化と可視性向上によりトラブル対応が迅速化し、リソース効率の最適化や安定稼働の実現が期待できます。

スケーラビリティScalability

SGE が持つスケールアウトに強い設計を強化し、さらに安定性を追求

  • 大規模 HPC / AI クラスタのスケールに対応
  • 過負荷時に qmaster を守る DoS(Denial-of-Service)からの保護機能

大規模クラスタにも対応する従来のジョブスケジューリングの設計がさらに強化されました。数1000ノード、数100万ジョブのジョブスケジューリングにも対応します。

可観測性Observability

新たなテレメトリ機能によりクラスタ全体の見える化が大幅に強化

  • qtelemetry によるメトリクス収集(Prometheus・Grafana 連携)
    •  ホストメトリクス
    • ジョブメトリクス
    • qmaster の内部状態 
  • Grafana のGCS向けダッシュボード
  • systemd と連携したジョブ・サービス単位での cgroup ベースのアカウンティング

GCS 9.1.0 で拡張性の高いツール群と併用可能なテレメトリ機能が追加され、システムの内部状態の観測とシステムの安定性に貢献します。

セキュリティSecurity

セキュリティ面での強化

  • Munge 認証のサポート(コンテナ環境・User Namespace で特に有効)
  • systemd によるジョブ実行隔離、cgroup ベースのデバイス制御

通信経路・認証・実行環境の隔離が強化されており、近年 HPC クラスタに求められるセキュリティ基準に対応します。内部コンポーネント間通信の TLS 暗号化(証明書自動管理)もリリース予定(実環境検証中)です。

ユーザビリティ・カスタマイズ性Usavility / Customizability

任意のシステムに適合するためのカスタマイズ性

  • 管理者向けのクラスタ設定GUI(Qontrol / Rest API)
  • ロードセンサーの拡張により独自のメトリクス取得が可能
  • ジョブの前後処理の柔軟な追加
  • アカウンティングレコードのJSON化
  • アカウンティングへのカスタムメトリクスの追加

従来からのクラスタ管理手法に加え、時代に即した手法も随時追加され、外部システムとの連携がしやすくなりました。リソースカスタマイズの簡易性は、任意の環境の運用スタイルに応じて柔軟に対応するクラスタ構成を可能にします。

EF Portal との連携によるメリット

GUIのクラスタ管理画面である Qontrol は、EF Portal と統合可能で、EF Portal の Web インタフェースからアクセスすることができます。また、GCS を EF Portal と連携することにより、通常はコマンドラインインターフェースで実行する GCS ジョブの投入を Web GUI から実施することができるようになります。これにより、HPC に不慣れなユーザーでも扱いやすい GUI 環境が提供され、管理負荷やヒューマンエラーに起因するリスクを低減した運用が実現します。EF Portal の詳細はこちら

サポート対象のOS &アーキテクチャ

Master およびExecution ホストサポート
(Master/Shadow, Execution, Admin/Submit Clients)
OSVersionArchitecture
x86-64ARM64
CentOS8✔︎✔︎
CentOS9✔︎
Redhat8✔︎✔︎
Redhat9, 10✔︎
Rocky8, 9✔︎✔︎
Rocky10✔︎
Raspbian11, 12✔︎
Ubuntu24.04, 26.04✔︎✔︎
Ubuntu20.04, 22.04, 25.04✔︎
Alma8, 9, 10✔︎
SUSE Leap15✔︎
SUSE SLES15, 15 SP7✔︎
Execution ホストのみサポート
(Execution, Admin/Submit Clients)
OSVersionArchitecture
x86-64other
Alma8ppc64le, s390x
Centos8ppc64le, s390x
Rocky8ppc64le, s390x
SUSE Tumbleweed ✔︎Risc-V64
CentOS7✔︎
Free BSD13, 14✔︎
Redhat7✔︎

※ GCS v9.1の対応状況となります。上記以外のOS についてはお問い合わせください。