# 粗粒度再構成可能アーキテクチャ CMA における メモリバンクアクセスの改良

# 小島 拓也† 天野 英晴†

† 慶應義塾大学大学院 理工学研究科 223-8522 神奈川県横浜市港北区日吉 3-14-1 E-mail: †{tkojima,hunga}@am.ics.keio.ac.jp

**あらまし** エネルギー効率に優れる粗粒度再構成可能アーキテクチャ CGRA(Coarse-grained reconfigurable architecture)は IoT(Internet of Things) デバイスやエッジコンピューティングへの応用が期待されている。CMA (Cool Mega Array)はクロックサイクル単位ではなくタスク単位での再構成を行う CGRA であり、省エネルギー性に特化してい る。しかし、CMA アーキテクチャには電力削減のためにデータ制御においていくつかの制約がかけられている。本 稿では、これらの制約を解消しエネルギー効率を改善した新たなアーキテクチャ VPCMA2を提案する。ハードウェ アのオーバーヘッドを評価するために、このアーキテクチャの設計を 65-nm プロセスで実装した。評価の結果、追加 した機能は 17%の電力オーバーヘッドと 10%の面積オーバーヘッドをもたらしたが、およそ 46%の性能改善を得るこ とができた。

キーワード CGRA, 粗粒度再構成可能アーキテクチャ, バンクアクセス, メモリアーキテクチャ

Takuya KOJIMA<sup>†</sup> and Hideharu AMANO<sup>†</sup>

† Graduate School of Science and Technology, Keio University Hiyoshi 3–14–1, Kohoku-ku, Yokohama, Kanagawa, 223–8522 Japan

E-mail: *†*{tkojima,hunga}@am.ics.keio.ac.jp

# 1. はじめに

近年、IoT (Internet of Things) やエッジコンピューティン グは大きな注目を集め、高いエネルギー効率で柔軟性の高い デバイスへの関心が高まっている。粗粒度再構成可能アーキ テクチャ CGRA(Coarse-grained reconfigurable architecture) はこれらの要求を満たすデバイスの一種である。FPGA(Field-Programmable Gate Array) がビット単位の再構成粒度である のに対し、CGRA はワード単位の再構成粒度を提供する。こ れによって、再構成のためのハードウェアオーバーヘッドを削 減しつつ、プログラマビリティを維持したハードウェアプラッ トフォームを実現する。

CMA(Cool Mega Array) は低電力志向の CGRA として提案 され [1]、他の CGRA と同様に、図 1 のような PE(Processing Element) アレイを計算資源として持つ。この PE アレイはタ スク単位に再構成され、あるアプリケーションカーネルを実行 している間、構成 (コンフィギュレーション) は変化しない。こ れによって、再構成に必要なダイナミック電力を劇的に削減で きる一方で、サイクル単位の再構成をサポートする他の CGRA と比べ、柔軟性が低下する。この欠点を補うために、CMA に はマイクロコントローラと呼ばれる専用の小規模な RISC プロ セッサを備える。マイクロコントローラは命令コードに従い、 主に PE アレイとデータメモリの間のデータ転送を制御する。

一般に、PE アレイはクロスバスイッチなどを用いてマルチ バンク化されたメモリと接続し、メモリアクセス競合によるス トールを避ける。これまで提案されている CMA [2] [3] はデー タマニピュレータと呼ばれるメモリアクセス機構を備える。 データマニピュレータは N 個のマルチプレクサで構成された N 入力-N 出力のネットワークである。入出力数 N はメモリバ ンクの数と一致し、ある入力データは転送テーブルに従い、任 意の出力へ転送することができる。これによって、PE アレイ とデータメモリ間で柔軟なデータ転送が可能になる。

しかし、これまでの CMA では各バンクでアクセスされる データはアドレス空間上で連続している必要があった。たとえ 独立したメモリバンクにあるデータであっても、それらが連続 したアドレス空間にない場合同時にアクセスすることはできな い。[2] [3] で評価用いられているようなシンプルなアプリケー ションではこのような制約は問題にならなかったが、より複雑 なデータアクセスを含むアプリケーションを想定すると、こう した制約は非効率的なデータアクセスを招く。

本稿では、前述のメモリアクセス制約を取り除いたバンクア クセス機構を提案する。加えて、PE アレイにおける利用可能 な定数レジスタの制約を緩和し、複雑なアプリケーションへの マッピング能力を高める。一方で、こうした機能追加はチップ 面積、電力の増加を引き起こす。そこで、高機能なデータ制御 と電力、面積オーバーヘッドの間のトレードオフをいくつかの アプリケーションを用いて分析する。

# **2. 研究の背景**

CGRA は一般に小規模な演算器 (PE)を 2 次元のアレイ状に





並べた構造を持ち、この豊富な演算資源を用いてアプリケーショ ンのループ処理などを効率的に処理するアクセラレータとして 利用される。CGRA の1種である CMA アーキテクチャ [1] は 再構成に必要な電力を削減するために、クロックサイクル単位 での再構成を行わずにひとつのタスクが完了するまで同じコン フィギュレーションを利用し続ける。さらに、PE で計算され た結果をそのまま隣接する PE へ転送することで、中間データ を保持するためのローカルレジスタを不要にし、劇的にダイナ ミック電力を削減している。ローカルレジスタを除去したこと により巨大な組合わせ回路となった PE アレイは長いクリティ カルパスを形成してしまうが、PE アレイをマルチサイクル実 行の演算器にすることでシステムのクロック周波数低下を防い でいる。この実行サイクル数はアプリケーションに応じてプロ グラムすることが可能である。ところが、マルチサイクル実行 にしてもスループットの低下を避けることはできず性能のボト ルネックとなっていた。

### 2.1 VPCMA アーキテクチャ

VPCMA (Variable Pipelined CMA) は前述のボトルネック を解消するためにパイプライン化された PE アレイを搭載し たアーキテクチャである [3]。Fig. 1 に示すように従来の CMA とは異なり、限られた数のレジスタを用いて PE アレイをパイ プライン化している。PE アレイのサイズが 8×12 であり、各 PE 行の間に計7本のパイプラインレジスタが挿入されている。 PE アレイの他にマイクロコントローラ、データマニピュレー タ、12 バンクに分割されたデータメモリを備える。また、図1 は PE の構成も示している。各 PE は ALU(Arithmetic Logic Unit)、入力用のセレクタ、SE(Switching Element)を持ち、隣 接する PE 同士は相互に接続されている。相互接続には図中の 実線で表される SE によるリンクと、図中の点線で表されるダ イレクトリンクがある。ダイレクトリンクは北方向、北西方向、 北東方向の3方向に延びている。

定数レジスタは1行のPE(12個)で共有されており、1行あ たり2つのレジスタを利用できる。もし1行のPEで2つ以上 の定数値が必要な場合は、他の行で未使用の定数レジスタを相 互接続網を通して利用する。

各パイプラインレジスタは図1に示すようにコンフィギュ レーションデータによって選択的に利用される。アクティブな パイプラインレジスタは通常のレジスタと同様の振る舞いをす るが、そうでないパイプラインレジスタはクロックゲーティン グが施され、入力されたデータはそのまま上段の PE へ転送さ れる。これによって、可変的なパイプライン構造をとることが でき、アプリケーションに応じてオーバーヘッドを最小化した パイプラインを実現できる。ただし、南方向へのデータリンク は最終的な演算結果を返すためだけに利用されるため、この データパスはパイプラインレジスタによってラッチされること はない。

マイクロコントローラは 16bit 長命令の小規模な RISC プロ セッサで、命令コードに従い PE アレイとバンクメモリとの間 のデータ転送を制御する。フェッチレジスタとギャザーレジス タはそれぞれ PE アレイの入力、出力に接続されていて、マイ クロコントローラがフェッチレジスタにデータを書き込むこと で、PE アレイでの処理が開始する。数クロックサイクル後、演 算結果はギャザーレジスタに書き込まれ、マイクロコントロー ラはこれをデータメモリに書き戻す。本項ではフェッチ命令で 前者の処理を、ギャザー命令で後者の処理を行う。

図2に VPCMA による演算実行の様子を示す。ここでは、2 つの例-1) ステージあたり1サイクル (Fig.2(b)) と2) ステー ジあたり2サイクル (Fig. 2(c))—を示す。どちらの例でも、図 2(a) のように 4 ステージのパイプラインが用いられているこ ととする。DELAY 命令は PE アレイにデータを入力し、結果 が出力されるまでの遅延時間を指定する専用命令である。各ス テージを1サイクルで実行する場合、4サイクルの遅延時間を 指定する。一方、各ステージを2サイクルで実行する場合、8サ イクルの遅延時間を指定する。SET\_LD 命令と SET\_ST 命令 はフェッチ命令およびギャザー命令の設定を行う命令で、2つ の引数はそれぞれ、アクセス開始アドレスとアドレスのインク リメント量を指定する。フェッチ命令とギャザー命令は一つの 複合命令 LDST\_ADD 命令にまとめられている。LDST\_ADD 命令が発行されると即座にフェッチ命令が実行されるが、ギャ ザー命令の実行は図 2(b) に示すように前述の DELAY 命令で 指定したサイクル数だけ遅延する。LDST\_ADD 命令はデータ マニピュレータにおける転送テーブル番号を引数とする。この 転送テーブルはフェッチ、ギャザー用で独立に指定することが できる。転送テーブルの詳細は 3.1 節で述べる。フェッチ命 令、ギャザー命令は実行が完了すると読み出し/書き込みアド レスを自動的にインクリメントする。各ステージを2サイクル で実行する場合 NOP 命令 (もしくは依存しない別の命令) を LDST\_ADD の後に挿入する必要がある。マイクロコントロー ラは BNZD(Branch Not equal to Zero with Decrement) 命令 をはじめとするいくつかの分岐命令をサポートする。どちらの 例においても BNZD 命令がレジスタ r0の値をチェックし、0 でなければ分岐する。また、BNZD 命令は分岐が成立すると比 較に利用したレジスタの値を1 デクリメントする。分岐命令は 1サイクルを要するため各ステージを1サイクルで実行する場 合、次のイテレーションの LDST\_ADD 命令実行が1 サイクル 遅れる。対して、各ステージを2サイクルで実行する場合、こ の遅延は NOP 命令挿入の代わりとなる。他にもマイクロコン トローラはレジスタ間で汎用的な算術演算、論理演算が可能で ある。最後に DONE 命令が実行されると、タスク完了がホス トプロセッサに通知される。

## 2.2 データマニピュレータ

データマニピュレータはデータメモリとフェッチ/ギャザーレ ジスタの間で柔軟なデータ転送を可能にする。図3はフェッチ 命令実行時のデータマニピュレータの動作例である。この例で は、SET\_LD 命令によってフェッチ開始アドレスは 0x0、自動 インクリメント量は8と初期化されているものとする。フェッ



(b) 2 回目の fetch

図3 データマニピュレータによるデータ転送 チ命令が実行されると、フェッチ開始アドレスから連続した 12 個のデータを12のメモリバンクから読み出す。各バンクから読 み出されたデータは、フェッチ開始アドレスの指すデータが先 頭になるようにシフトされる。1回目のフェッチ(図3(a))では すでに先頭のデータがフェッチ開始アドレスにあるデータであ るためシフトは発生しない。対して2回目のフェッチ(図3(b)) では先頭のデータがバンク8にあるため、シフトする必要があ る。データマニピュレータは 12 個のマルチプレクサで構成さ れているため、12個の入力データは転送テーブルに応じて任意 の出力ポートへ転送することができる。転送テーブルは各出力 ポートのマスク情報も含んでおり、図3における3番目のポー トのようにどのデータも転送させないこともできる。VPCMA はフェッチ命令、ギャザー命令用でそれぞれ 16 個のテーブル を持っている。これによって、ある一つのタスクが異なるメモ リアクセスパターンを持っていても、マイクロコントローラは テーブル番号を変えるだけでよく、再構成が不要となる。

# 3. 提案手法

VPCMA アーキテクチャはデータ制御において次のような 制約を持っている。本稿では、これらの制約を緩和した新しい アーキテクチャ VPCMA2 を提案する。

- 連続した 12 個のデータのみをインタリーブアクセス可能
- PE1 行あたり利用可能な定数レジスタは 2 つ

 マイクロコントローラ内の汎用レジスタにデータメモリ などのデータをロードできない



図 4 インタリーブアクセスの改良

#### 3.1 データマニピュレータの改良

先述のバンクメモリへのアクセス制約を解消するために、 VPCMA2 ではデータマニピュレータが改良されている。図 4(b)のようなループコードを想定すると、以前のデータマニ ピュレータではこのアクセスパターンをそのまま取り扱うこと ができない。同時にアクセスされる配列 a と配列 b の要素は最 大で 64 ワードの距離にあるが、以前のデータマニピュレータ は連続した 12 個のデータしかアクセスすうことができないた めである。そのため、VPCMA でこのループを取り扱うには 配列 a と配列 b の要素を a[0], b[0], a[1], b[1], ... のように交互に織り交ぜてデータメモリに格納する必要がある。しかし、このようなメモリ配置の変更はホストプロセッサ側で行う必要があり、データ転送時間を悪化させる。加えて、配列 b は <math>a[16:31]、 a[32:47], a[48:63]との計算のためにコピーして転送する必 要があり、データ転送時間を増加させ、メモリ容量を浪費して しまう。

そこで、VPCMA2のデータマニピュレータでは転送テーブ ルに図 4(c) のようなバンク毎のアドレスオフセットを追加し ている。図 4(c) における他の転送テーブルの内容は図 3(a) の ものと同一であるため省略している。図 4(c) と図 4(d) は改良 されたインタリーブアクセスの様子を示している。この例では SIMD プロセッサのようにループのイテレーション 4 回分が同 時に PE アレイで実行される。まず、各バンクでアクセスされ るアドレスは図 4(a) に示した方法で計算される。このアドレス 計算自体はこれまでのデータマニピュレータと同様であるが、 本手法ではこれらの計算されたアドレスにオフセットを加えた 値が実際にアクセスされる。1度目のフェッチでは、すべての バンクのアドレスは0と計算されるが、5~8番目のバンクに設 定されたオフセットは5 であるため、a[0:3] と b[0:3] が同 時にロードされる。2度目のフェッチではフェッチ開始アドレ スが4だけインクリメントされるため、各バンクのアドレスが 再計算される。前節で説明したシフトと同様に、アドレスオフ セットも合わせてシフトされる。したがって、同じ転送テーブ ル (およびオフセット) を利用して a[4:7] と b[4:7] をロード することができる。この例では4度目のフェッチ(a[12:15]と b[12:15]) から5度目のフェッチ(a[16:19]とb[0:3])へ移る 際に配列しへのオフセットを変更する必要がある。また、バン ク競合が起きないようにメモリ配置を十分に最適化しておく必 要がある。

### 3.2 定数レジスタの制約緩和

前節で述べたように VPCMA は 16 個の定数レジスタを持っ



図 5 VPCMA2の拡張されたデータバス

ているが、各 PE はそれらを自由に利用することができない。 1 行の PE で 2 つ以上の定数を必要とする場合、相互接続網を 通して別の PE 行で余っている定数レジスタを利用する必要が あるが、配線資源を消費してしまうため、アプリケーションの マッピングに失敗する可能性が高まる。

この制約を解消するために、VPCMA2 では定数レジスタの 数は 16 のまま、すべての PE から 16 個の定数値を利用可能に した。代わりに、SE による定数値を転送する機能を廃止した。 ただし、PE で指定可能なレジスタ数が増えたことによりコン フィギュレーションデータの増加を招く。

# 3.3 マイクロコントローラの命令セット拡張

VPCMA はホストプロセッサとデータを交換するための外 部バスのみを持っており、これを利用してホストプロセッサは PE の再構成、命令コード、処理用データ、定数データ、計算結 果のすべてのデータ転送を行う。つまり、どれほど少量のデー タ変更であっても、ホストプロセッサによる制御を必要として いた。また、マイクロコントローラは汎用レジスタにデータメ モリの値をロードすることはできず、ループ回数が入力データ に依存するようなアプリケーションなどを効率的に処理するこ とができなかった。

この問題に対処するために、VPCMA2ではマイクロコント ローラに図5に示す汎用のデータバスを追加し、これを通し て、データメモリや命令メモリ含む各モジュールへアクセスで きるよう命令セットが拡張されている。しかし、マイクロコン トローラは16bit 幅のレジスタファイルであるのに対し、ほと んどのモジュールは25bit や32bit などデータ幅である。した がって、16bit 以上のデータをロードする際は2つのレジスタを 結合して利用される。また、32bit 幅の演算を行う ADD.D 命 令なども合わせて導入されている。追加したデータバスによっ て、再構成するパートが小さい場合、ホストプロセッサなしに

| 表 1 実装環境と消費電力の比較 |                          |                          |  |  |
|------------------|--------------------------|--------------------------|--|--|
|                  | VPCMA [4]                | VPCMA2 (本手法)             |  |  |
| 設計               | Verilog HDL              |                          |  |  |
| プロセス             | Renesas SOTB 65 nm       |                          |  |  |
| ライブラリ            | LP (Low Power)           | LSTP (Low STandby Power) |  |  |
| 標準電圧             | $0.55 \mathrm{~V}$       | 0.75 V                   |  |  |
| 論理合成             | Synopsys Design Compiler |                          |  |  |
|                  | 2016.03-SP4              | 2017.09-SP1              |  |  |
| 配置配線             | Synopsys IC Compiler     | N/A                      |  |  |
|                  | 2016.03-SP4              |                          |  |  |
|                  | 消費電力 (30MHz)             |                          |  |  |
| リーク電力            | 126.0 $\mu W$            | $25.18~\mu\mathrm{W}$    |  |  |
| ダイナミック           | 9 997 W                  | 4.090 W                  |  |  |
| 電力               | 3.337 MW                 | 4.029 mW                 |  |  |
| 合計               | $3.463 \mathrm{~mW}$     | $4.053 \mathrm{~mW}$     |  |  |

| 表 2 オーバーヘッドの比較        |       |                 |                |  |  |
|-----------------------|-------|-----------------|----------------|--|--|
|                       | VDCMA | VPCMA2          | VPCMA2         |  |  |
|                       | VIUMA | (1  cycle  f/g) | (2  cycle f/g) |  |  |
| 周波数 (MHz)             | 87.71 | 95.23           | 125.0          |  |  |
| 75%スケール               | N/A   | 71.42           | 93.75          |  |  |
| 面積 (mm <sup>2</sup> ) | 10.04 | 14 55           | 14.99          |  |  |
| (PE アレイを除く)           | 10.04 | 14.55           | 14.22          |  |  |

マイクロコントローラがこれを行うこともできる。マイクロコ ントローラが動作中はバス獲得権はホストプロセッサよりもマ イクロコントローラが優先的に獲得できる。

# 4. 評価

# 4.1 VPCMA2の実装

データ制御の制約を緩和するのに生じたハードウェアオー バーヘッドを評価するために、提案した VPCMA2 を Verilog HDL で設計し、Renesas SOTB 65-nm プロセスで合成した。 VPCMA に関しては、同様に SOTB プロセスで実チップ化 およびその評価が行われている [4]。実装環境を表 1 に示す。 利用した SOTB プロセスには LP(Low Power) と LSTP(Low STanby Power)の2種類があり、LSTP は LP と比べ待機電力 (省リーク電力性)に優れる。一方で、LSTP は LP よりも標準 電圧が高いため、動作時のダイナミック電力も大きい。予備評 価によれば、LSTP では LP よりも 25%高いクロック周波数で もタイミング制約を満たすことができることがわかっている。 VPCMA は LP プロセスで実装されているが、現在利用可能で きないため、VPCMA2の実装には LSTP プロセスが用いられ ている。

# 4.2 ハードウェアオーバーヘッド

# 4.2.1 最大動作周波数

VPCMA2 では VPCMA と比ベデータマニピュレータにお ける機能が追加されており、これは動作周波数低下を招き得 る。そこで、VPCMA2 の 2 種類の設計—1) 1 サイクル実行の フェッチ/ギャザー命令、2) 2 サイクル実行のフェッチ/ギャ ザー命令— を用意した。表 2 はそれぞれの合成結果による最 大動作周波数を示している。また、LP プロセスで実装された VPCMA と比較するために、75%にスケールした値も示してい る。1 サイクル版のものと比べ、2 サイクル版の方がより高い 周波数で動作可能であることがわかる。さらに、2 サイクル版 の設計は VPCMA と比較して、約 6%高い周波数で動作可能で ある。これは、VPCMA のデータマニピュレータがクリティ カルパスを含んでいたが、VPCMA2 ではデータマニピュレー タが 2 サイクルかけてフェッチ/ギャザーを行い、クリティカ ルパスが別の箇所になったためである。したがって、1 サイク ル版の VPCMA2 では VPCMA と 18%比べ動作周波数が悪化 している。当然 VPCMA の設計においても 2 サイクル実行の フェッチ/ギャザーに変更すれば同程度の動作周波数向上を得 ることはできる。

### 4.2.2 面 積

次に 50MHz で動作するようにタイミング制約を与え、合 成したネットリストのセル面積を分析する。この制約条件 は VPCMA の実チップと同様のものである。表 2 に PE ア レイを除く部分のセル面積をまとめる。VPCMA と比較して VPCMA2 では 40%面積が増加している。しかし、実際には VPCMA と VPCMA2 の両方の設計において PE アレイが全 体の面積の大きな割合を占めており、2 サイクル版の VPCMA2 の場合、全体の面積は 50.28mm<sup>2</sup> である。したがって、全体の 面積で比較すると面積オーバーヘッドは10%以下である。2 サ イクル版の VPCMA2 は1サイクル版と比較してやや小さな面 積になっている。動作周波数の結果も考慮すると、VPCMA2 の設計では2サイクル版を採用するべきである。フェッチ命 令、ギャザー命令が実行されてからメモリバンクへアクセスす るのが1サイクル遅れることになるが、PE アレイ自体がマル チサイクル実行であるため大きな問題にはならない。以降は2 サイクル版の設計のみを用いる。

#### 4.2.3 電力オーバーヘッド

表1はVPCMAとVPCMA2の電力比較も示している。 VPCMAの消費電力は実チップ測定の結果[4]であり、VPCMA2 はSynopsys PrimeTimeによってシミュレーションされた結 果である。電力シミュレーションに用いたスイッチング率は Cadence NC-Verilogによるゲートレベルシミュレーションよ り得た。実チップ測定と同じ条件でシミュレーションを行うた め、クロック周波数は30MHzに設定し、同一のアプリケーショ ン(カラー画像のグレースケール)を動作させた。VPCMA2の リーク電力は先述のプロセス特性の違いによりVPCMAの約 5分の1となっている。しかしながら、どちらの場合もダイナ ミック電力が支配的であるため、VPCMA2はVPCMAと比べ 17%電力が増加している。ただし、これは標準電圧がVPCMA が0.55Vであるのに対し、VPCMA2では0.75Vであることが 大きな原因であり、機能追加に起因する電力増加はこれよりも 小さい。

### 4.3 アプリケーション実行の改善

最後に、VPCMA2 で改善されたデータ制御がアプリケーショ ン実行時間に与える効果の評価を行う。本評価では JPEG エ ンコードに含まれる 3 つのタスク: 1) RGB-YCC 変換, 2) 離 散コサイン変換 (DCT), 3) 量子化 (Quantize)、加えて、2 次元 の Jacobi 法を VPCMA, VPCMA2 で実行した場合の実行時間 を比較する。

図6に VPCMA の実行時間で正規化した結果を示す。これら の実行時間は計算時間 (Comp) 以外にホストプロセッサから各 種データを転送する時間 (Data) や再構成にかかる時間 (Conf)、





その他の制御 (Ctrl) の時間を含んでいる。ホストプロセッサか らのデータ転送にはシングル転送と16ワードのブロック転送 の2種類を想定し、シングル転送ではアドレスとデータに2サ イクル、ブロック転送ではアドレスと16ワードのデータに17 サイクルを要する。

4.3.1 マッピング可能性の向上による効果

定数レジスタの接続数が増加したことにより、より大きなア プリケーションカーネルを PE アレイにマップすることができ るようになった。これによって、RGB2YCC, DCT で計算時 間が削減されている。VPCMA の場合、これらのカーネルは大 きすぎて一度に PE アレイにマップすることができない。した がって、いくつかのサブグラフに分割して実行する必要がある。

RGB2YCCの場合、VPCMA では RGB 画素値からそれぞ れ Y,Cr,Cb 値を計算する 3 つのサブグラフに分割して実行し ている。そのため、VPCMA では3回の再構成を行なっている が、再構成回数が1回のVPCMA2と比較してそれほど再構成 時間が大幅に増加しているわけではない。これはグラフサイズ が小さくなったため、1回の再構成にかかる時間が短くなって いるからである。RGB-to-Y を計算するカーネルは PE を 2 列 消費するが、VPCMA2 で用いられる RGB-to-YCC を同時に 計算するカーネルは PE を 4 列消費している。PE アレイは 12 列あるため、同一のマッピングは横方向に複製され、並列に実 行される。RGB-to-Yの場合、6並列で計算することが可能で ある。対して、VPCMA2 は RGB-to-YCC を 3 並列で計算す る。マッピングの複製はコンフィギュレーションデータのマル チキャスティングによって効率的に行われる[5]。これらの理由 から VPCMA2 が VPCMA と比べ3 倍高速に計算が行なえる ようになったわけではないが、全体として 1.31 倍の高速化を達 成している。

# 4.3.2 バンクアクセス改良による効果

データマニピュレータの改良によって、DCT, Quantize, Jacobi でデータ転送時間を削減することができている。前述のよ うに、VPCMAでは DCTを2つに分割して実行しているが、 前半の計算で得られた結果を中間データとして保持し、後半の 計算で利用する必要がある。しかし、VPCMA では 12 ワード 以上離れたデータを同時にアクセスすることはできない。した がって、入力データ8ワードごとに8ワードの中間データ用の スペースを残しながらデータ転送を行う必要があり、ブロック 転送の効率が低下している。よって、DCT では計算時間の短 縮の加え、データ転送時間の削減によって全体で 1.47 倍の高速 化を達成した。

Quantize では入力データを量子化テーブルで量子化してい くため、ループで2種類の配列にアクセスする必要がある。3. 節の図4に示したように VPCMA2 ではこれを効率的に行う ことができるが、VPCMA の場合2つの配列の要素を交互に 並べて転送する必要があるためデータ転送時間が長くなってい る。2次元配列にアクセスする Jacobi でも同様の理由で大幅 にデータ転送時間を削減できている。しかし、これらのアプリ ケーションでは PE アレイで実行されるカーネルは同一であ るため計算時間の短縮は得られていない。結果的にそれぞれ、 1.30 倍、1.77 倍の高速化を達成している。また、データマニ ピュレータにおけるオフセットの更新などは変更箇所が十分に 小さいため、拡張したデータバスを通してマイクロコントロー ラ自らが変更を行なっている。

#### 結 論 5.

本稿では、データ制御においていくつかの制約を持ってい た VPCMA アーキテクチャを改良した VPCMA2 を提案した。 複雑なメモリアクセスパターンを含むアプリケーションでは VPCMA の非効率的なデータ転送が原因で、達成可能な性能 に限界が生じていたが、VPCMA2 ではこれらを解消し、平均 1.46%の性能向上を達成した。機能追加によって面積が約10%、 電力が約17%増加したが、本稿の評価に利用したアプリケー ションではエネルギー効率を向上させることができた。

#### 謝 辞

本研究は、JSPS 科研費 (B) ビルディングブロック型計算シ ステムにおけるチップブリッジを用いた積層方式 (18H03125) および科研費3次元積層技術を応用した粗粒度再構成可能デバ イスの研究 (19J21493) の助成を受けたものである。また、東 京大学大規模集積システム設計教育研究センターを通し、シノ プシス株式会社の協力で行われたものです。関係者の皆様に感 謝致します。 文

- 献
- [1] N. Ozaki, Y. Yasuda, M. Izawa, Y. Saito, D. Ikebuchi, H. Amano, H. Nakamura, K. Usami, M. Namiki and M. Kondo: "Cool Mega-Arrays: Ultralow-Power Reconfigurable Accelerator Chips", IEEE Micro, 31, 6, pp. 6-18 (2011).
- [2] K. Masuyama, Y. Fujita, H. Okuhara and H. Amano: "A 297mops/0.4mw ultra low power coarse-grained reconfigurable accelerator CMA-SOTB-2", 2015 International Conference on ReConFigurable Computing and FPGAs (Re-ConFig), pp. 1-6 (2015).
- N. Ando, K. Masuyama, H. Okuhara and H. Amano: [3] "Variable Pipeline Structure for Coarse Grained Reconfigurable Array CMA", 2016 International Conference on Field-Programmable Technology, pp. 231–238 (2016).
- T. Kojima, N. Ando, Y. Matshushita, H. Okuhara, N. A. V. Doan and H. Amano: "Real chip evaluation of a low power CGRA with optimized application mapping", Proceedings of the 9th International Symposium on Highly-Efficient Accelerators and Reconfigurable TechnologiesACM, p. 13 (2018).
- T. Kojima and H. Amano: "A configuration data multicast-[5] ing method for coarse-grained reconfigurable architectures", 2018 28th International Conference on Field Programmable Logic and Applications (FPL)IEEE, pp. 239-243 (2018).