C++ AMP

C++ AMP (C++ Accelerated Massive Parallelism) ^[1]とは、マイクロソフトが中心になって開発していた、演算アクセラレータを活用した並列プログラミングのためのC++言語拡張およびライブラリである。バックエンドとしてDirectCompute (DirectX) やOpenCLなどを使用した実装が存在している。C++ AMPによって、DirectComputeやOpenCLよりも高レベルの並列プログラミングAPIが提供される。

概要

マイクロソフトはWindows上においてGPGPUを標準化するために、DirectX 11にてDirectComputeを導入した。しかし、DirectComputeはDirect3D APIを直接操作する必要があるため、OpenMPを利用した一般的なCPU向けのC++並列プログラミングなどと比較してハードルが高い^[2]。マイクロソフトはより抽象化された純粋C++プログラミングに近いGPU並列プログラミングモデルを提供するAPIおよび言語拡張として、2012年にC++ AMPの仕様を公開した^[3]。また、マイクロソフトによるC++ AMPの公式プロプライエタリ実装として、Microsoft Visual C++ 2012はDirectComputeをバックエンドとした最初のC++ AMP対応コンパイラとなっている。

C++ AMPのライブラリおよびC++ AMPに対応したVisual C++コンパイラが付属しているのはVisual Studio 2012以降であるが、Visual Studio 2013ではC++ AMP v1.2規格に対応し、さらにコンピュートシェーダー以外のシェーダーステージとの相互運用やテクスチャフィルタリング（サンプラー）などの機能が強化されている^[4] ^[5] ^[6]。しかしVisual C++ 2022以降、C++ AMPは非推奨となった^[7]。

なお、C++ AMP自体はDirectCompute/Windows専用というわけではなく、またGPU専用というわけでもない^[8]。AMDとマイクロソフトは、OpenCLなどをバックエンドとするLinuxやOS X向けのC++ AMP v1.2オープン実装を発表した^[9]。その後、同コンパイラはMulticoreWareを経てRadeon Open Compute (ROCm) プラットフォームに移管され、Clamp, Kalmar, HCCと名前を変えながら開発が続けられていたが、2019年6月予定の最終リリースをもってHCCの開発が終了することになった^[10]。HCCでは、OpenCLのカーネル記述言語"OpenCL C"や中間言語"SPIR"^[11]、およびHSA (Heterogeneous System Architecture) の中間言語"HSAIL"^[12]への変換層が提供され、Visual C++版よりもさらにヘテロジニアス環境向けを意識した実装となっている。

MSDNブログではCUDA、OpenCL、DirectComputeプログラマー向けに、各APIに対応するC++ AMP相当機能の比較資料が公開されていた。

コード例

C++ AMPのコード例を示す。OpenMPの#pragma omp parallel forのように、並列処理するコード単位すなわちカーネルを、C++11のラムダ式を使ってインラインで記述している部分が特徴的である。デフォルトのアクセラレーターを使用する場合、OpenCLやDirectComputeのような冗長なデバイス準備処理の記述も不要となる。

なおVisual C++実装では、実行環境にDirectX 11対応のGPUが搭載されている場合、restrict(amp)句が指定されたコードの実行にはGPUが使用される^[13]。対応GPUが搭載されていない場合は、Direct3D WARPデバイスやREFデバイスなどによるCPUエミュレーション実行（フォールバック）が提供される^[14]。

等差数列を作成する例

#include <amp.h> using namespace concurrency;  int main() {     const int ElemCount = 100;     int ary[ElemCount];     array_view<int, 1> av(ElemCount, ary);      parallel_for_each(extent<1>(ElemCount),     [=](index<1> idx) restrict(amp)      {         int i = idx[0];         av[i] = i;     });     av.synchronize(); }

多次元配列の例

#include <cstdio> #include <amp.h> #include <amp_graphics.h>  using namespace concurrency; using namespace concurrency::graphics;  int main() {     const int width = 10;     const int height = 3;     const int depth = 2;     const int elemCount = width * height * depth;      std::vector<float_3> srcHost(elemCount);     std::vector<float_3> dstHost(elemCount);      for (int z = 0; z < depth; ++z)         for (int y = 0; y < height; ++y)             for (int x = 0; x < width; ++x)             {                 srcHost[z * height * width + y * width + x] = float_3(float(x), float(y), float(z));             }      array_view<float_3, 3> srcView(depth, height, width, srcHost);     array_view<float_3, 3> dstView(depth, height, width, dstHost);      parallel_for_each(         dstView.extent,         [=](index<3> idx) restrict(amp)     {         const auto globalx = idx[2];         const auto globaly = idx[1];         const auto globalz = idx[0];         auto temp = srcView[idx];         if (globaly == 0)         {             temp += 0.5f;         }         if (globalz == 0)         {             temp *= -1;         }         dstView[idx] = temp;     });      dstView.synchronize();     for (int z = 0; z < depth; ++z)         for (int y = 0; y < height; ++y)             for (int x = 0; x < width; ++x)             {                 const auto val = dstHost[z * height * width + y * width + x];                 printf("[%d][%d][%d] = (%.1f, %.1f, %.1f)\n", z, y, x, val.x, val.y, val.z);             } }

参照

外部リンク

C++ AMP (C++ Accelerated Massive Parallelism) - MSDN (英語)
multicoreware / hcc / wiki / Home — Bitbucket - オープン実装のC++ AMPコンパイラ

この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

[1] C++ AMP (C++ Accelerated Massive Parallelism)

[2] 4Gamer.net ― 見えてきたAMDの次世代GPUアーキテクチャ。なぜAMDはVLIWを捨てるのか

[3] MicrosoftがC++ AMP仕様を公開し、データ並列処理の障壁を下げる意向

[4] Graphics (C++ AMP) | Microsoft Learn

[5] Texture Copy Improvements in C++ AMP with Visual Studio 2013 - Parallel Programming in Native Code - Site Home - MSDN Blogs

[6] C++ AMP Open Spec V1.2 Published - Parallel Programming in Native Code - Site Home - MSDN Blogs

[7] C++ AMP Overview | Microsoft Learn

[8] rator Class

[9] AMDとMS，GPU演算用途向けのコンパイラ「C＋＋ AMP v1.2」を発表 - 4Gamer.net

[10] RadeonOpenCompute/hcc: HCC is an Open Source, Optimizing C++ Compiler for Heterogeneous Compute currently for the ROCm GPU Computing Platform

[11] SPIR - The first open standard intermediate language for parallel compute and graphics

[12] HSA Developer Tools - HSA Foundation

[13] C++ AMP Overview

[14] Using accelerator and accelerator_view Objects

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

表話編歴並列計算
総論	クラウドコンピューティンググリッド・コンピューティング高性能計算コンピュータ・クラスター分散コンピューティング
並列レベル	タスクデータビット命令
スレッド	スーパースレッディング（英語版）ハイパースレッディング
理論	アムダールの法則グスタフソンの法則コスト効率性（英語版） Karp-Flatt metric（英語版） Parallel slowdown（英語版） Speedup（英語版）
要素	スレッドファイバープロセス PRAM Instruction window（英語版）
調整	キャッシュコヒーレンシ同期バリアマルチスレッディングマルチプロセッシングメモリコヒーレンス Cache invalidation（英語版） Application checkpointing（英語版）
プログラミング	スレッド (コンピュータ) 並列プログラミングモデル Implicit（英語版） Explicit（英語版）並行性フリンの分類 SISD SIMD MISD MIMD SPMD（英語版） Lock-freeとWait-freeアルゴリズム
ハードウェア	スーパーコンピュータスーパースカラーベクトル計算機マルチプロセッシング対称型非対称型（英語版）マルチコアメモリ NUMA COMA（英語版）分散型（英語版）共有型分散共有型 SMT MPP Beowulf
API	Ateji PX（英語版） Boostスレッド C++ AMP Charm++（英語版） Cilk（英語版） Coarray Fortran（英語版） CUDA Dryad（英語版） Global Arrays（英語版） Intel Cilk Plus（英語版） Intel Threading Building Blocks MPI OpenACC OpenCL OpenHMPP（英語版） OpenMP PVM POSIXスレッド UPC
問題	Embarrassingly parallel（英語版） Grand Challenge（英語版） Software lockout（英語版）
並行計算カテゴリ:並行計算カテゴリ:並列コンピューティング

表話編歴 C++
C++ C++98 C++03（英語版） C++TR1 C++11 C++14 C++17 C++20 C++23（英語版）
C++の機能	クラス（英語版）例外処理多重定義 new演算子演算子テンプレート
標準C++ライブラリ	iostream（英語版）スマートポインタ（英語版） STL string（英語版）
コンパイラ	Borland C++（英語版） C++ Builder Clang gcc Intel C++ Compiler Visual C++ Watcom C/C++（英語版）
統合開発環境	Anjuta Code::Blocks CodeLite Eclipse Geany Microsoft Visual Studio NetBeans
関連言語	C言語 C++ AMP Embedded C++ Objective-C
カテゴリ

C++ AMP

概要

コード例

等差数列を作成する例

多次元配列の例

関連項目

参照

外部リンク

€4.95