【LLM】GPUはどのように使われるのか

GPUがどこで使われているのか微妙に理解してなかったのでそのまとめ記事。LLMの勉強をしていて勢いでローカルLLMやりたくなってGPU買おうと思ったけど思ったより高くてとりあえず色々調べてみるか...となったのが今ここ。売れ筋とか見ても自分の想像してる価格よりも2~3割くらい高いなぁという印象で趣味として遊ぶのは大変そうだなぁとなったりした。

kakaku.com

GPUとは

GPU（Graphics Processing Unit）は、コンピュータ内で主に画像処理やグラフィックス処理を行うために設計されたプロセッサです。もともとは、3Dグラフィックスのレンダリングやゲームの描写に使用されていましたが、最近では機械学習やディープラーニングといった大量のデータを処理する分野でも重要な役割を果たしています。(15年以上前のGPU=ゲームくらいの認識でずっと生きてきたので最近の用途の広さには驚いていますw)

www.intel.co.jp

GPUの主な特徴

高い並列処理能力

GPUは、数千の小さなコアを持っており、大量の計算を同時に並列処理することが得意です。これにより、グラフィックスのレンダリングや画像処理だけでなく、機械学習や科学計算など、膨大なデータを高速に処理できます。

(これだけみるとOpenMPIとかを思い出すが今どんな感じなんだろう...)

www.open-mpi.org

大量のコア

CPUが少数の高性能なコアで順次処理を行うのに対し、GPUは多数のコアで並列処理を行います。この違いにより、GPUは特定の計算、特に行列演算やベクトル計算が重要なタスクに非常に適しています。

エネルギー効率

GPUは、大量の並列処理を行う一方で、特定のタスクではCPUよりもエネルギー効率が高い場合があります。これは、複数の演算を同時に処理することで、総合的な計算時間が短縮されるためです

GPUの用途

グラフィックス処理 GPUは、最初はコンピュータグラフィックスの描画やレンダリングを高速化するために設計されました。特に、3Dゲーム、アニメーション、映像編集など、複雑なグラフィックスをリアルタイムで処理する場面で広く使用されています。
機械学習とディープラーニング GPUは大量のデータを並列処理する能力に優れているため、機械学習やディープラーニングのトレーニングにおいても重要です。ニューラルネットワークモデルのトレーニングや推論で、特に行列演算やベクトル演算が大量に発生するため、CPUよりも効率的に処理が可能です
科学技術計算物理シミュレーション、気象予測、分子動力学など、高度な計算を要する科学分野でもGPUが活用されています。GPGPU（General-Purpose GPU）技術により、グラフィックス以外の計算にも応用されており、大量の並列計算が必要な場面で高いパフォーマンスを発揮します。
暗号通貨マイニング GPUは、ビットコインなどの暗号通貨のマイニング（採掘）にも利用されています。マイニングでは膨大な計算量が必要であり、GPUの並列処理能力を活用して効率よく計算を行うことができます。
ビデオエンコードビデオの圧縮やエンコードにもGPUが使われています。GPUのハードウェアアクセラレーションを活用することで、4Kや8Kといった高解像度のビデオを高速にエンコードし、リアルタイムでストリーミング配信することが可能です。

GPGPUとは

GPGPU（General-Purpose computing on Graphics Processing Units）は、もともとグラフィックス処理に特化して開発されたGPU（Graphics Processing Unit）を、グラフィックス以外の汎用計算にも利用する技術のことを指します。

ja.wikipedia.org

どこでGPUを使うのか

GPUは、並列処理に特化したプロセッサであり、特定の計算が得意ですが、苦手なものもあります。以下に、GPUが得意な計算と苦手な計算を整理して説明します。

GPUが得意な計算

並列処理が可能な計算 GPUの強みは、大量の小さなコアを使って同時に多くの計算を並列に処理できることです。これにより、以下のような並列性の高いタスクにおいて非常に高いパフォーマンスを発揮します。
行列演算: ディープラーニングや機械学習モデルのトレーニングに多用される行列やベクトル演算が得意です。特に、畳み込みニューラルネットワーク（CNN）では大量の行列積演算が必要で、GPUはこれを高速に処理します。物理シミュレーション: 流体力学や分子動力学シミュレーションなど、並列に計算できる物理シミュレーションでは、GPUの能力が最大限に発揮されます。画像処理・レンダリング: グラフィックス処理を並列に実行できるため、3Dグラフィックスのレンダリングや映像編集などの処理が非常に高速です。データの独立性が高い処理各計算ユニットが独立して動作できる場合、GPUは非常に効率的に動作します。例えば、ピクセルごとに独立した処理が可能な画像フィルタリングやエフェクトの適用など、データの依存関係が少ないタスクでの性能は優れています。

GPUが苦手な計算

逐次処理が必要な計算並列化が難しいタスクや逐次処理が必要なアルゴリズムにおいては、GPUは効率的に動作できません。例えば、以下のような場合です。
制御フローの複雑な処理: 条件分岐が多いアルゴリズムやループを多用する処理は、GPUの並列性を十分に活かせません。GPUは大量のコアで同時に同じ種類の計算を行うのが得意ですが、異なる処理が頻繁に発生する場合、各コアの処理が足並みを揃えられず、効率が低下します。逐次的なデータアクセス: 逐次的にデータにアクセスする必要がある場合、GPUのメモリ構造が効率的に機能しないため、処理速度が低下します。たとえば、再帰的なアルゴリズムや動的プログラミングのように、前の計算結果に依存する処理はGPUでは得意ではありません。軽量なシングルスレッドタスク単一の計算タスクや、並列化できない軽量なタスクにおいては、CPUの方が効率的です。CPUは高度なキャッシュ管理や分岐予測、パイプライン処理などによりシングルスレッドの性能が優れているため、こういった処理ではGPUよりも優位に立ちます。

GPUプログラミング

qiita.com

GPUプログラミングとは、コンピュータのGPU（Graphics Processing Unit）を使って、通常はCPUが行う計算を高速に処理するためのプログラミング技術です。特に、膨大なデータを並列に処理するタスクに対して非常に効果的です。GPUプログラミングは、グラフィックスだけでなく、機械学習、科学技術計算、データ解析など幅広い分野で利用されています。

主なGPUプログラミング技術

CUDA（Compute Unified Device Architecture）: NVIDIAが開発したGPUプログラミングのためのプラットフォームで、CやC++の拡張を使用します。CUDAは、NVIDIAのGPU上で並列処理を効率的に行うためのAPIを提供しており、ディープラーニングや物理シミュレーションなど、多くの計算を高速化できます。

github.com

OpenCL（Open Computing Language）: クロスプラットフォームで動作する標準規格であり、NVIDIA、AMD、Intelなど、さまざまなベンダーのGPUやCPUで動作します。OpenCLは、CUDAと異なり、特定のハードウェアに依存しないため、汎用性が高いです。