プログラムの速度や応答性を高める方法として、よく「並行処理」と「並列処理」が話題になります。
似ている用語ですが、目的と実行のされ方が本質的に異なります。
本記事では初心者の方にも分かるように、定義や実行モデル、得意分野と注意点、そして選び方の指針までを体系的に解説します。
初心者向け: 並行処理と並列処理の違い

用語の定義とイメージ
並行処理(concurrency)とは
1つのプログラムが複数の作業を扱う設計や能力を指します。
実行が厳密に同時でなくても、時間を細かく区切って切り替えながら進めることで、同時に進んでいるように見せます。
単一コアのCPUでも実現できます。
並列処理(parallelism)とは
複数の作業を物理的に同時実行します。
複数のCPUコアやGPUなどのハードウェア資源を同時に使って、同一時刻に別々の計算を進めます。
ハードウェアの並列性が前提になります。
料理の比喩でイメージ
1人の料理人が2品を行ったり来たりしながら作るのが並行処理です。
2人の料理人が同時に別々の品を作るのが並列処理です。
前者は切り替えの手際が重要で、後者は人員(コア数)の多さが鍵になります。
違いの要点 時間共有と同時実行
時間共有(インタリーブ)の発想
並行処理は、短い時間片でタスクを切り替えて前進させます。
OSのスケジューラによるプリエンプションや、イベントループによる協調的な切り替えで、待ち時間を隠しながら応答性を高めます。
同時実行の発想
並列処理は、同じ瞬間に複数の命令が別コアで走ります。
CPUコア、SIMD命令、GPUなどの物理並列度を活用し、計算量そのものを分割して処理時間を短縮します。
ハードウェア要件と効果の違い
並行処理は単一コアでも有効で、特にI/O待ちの隠蔽に効きます。
並列処理は複数コアやGPUが必要で、CPU集約の処理時間短縮に効きます。
両者は排他的ではなく、同じアプリで併用することが多いです。
以下の表は、違いを一望できるように整理したものです。
観点 | 並行処理(concurrency) | 並列処理(parallelism) |
---|---|---|
主目的 | 応答性の改善、待ち時間の隠蔽 | 処理時間の短縮、スループット向上 |
実行形態 | 時間共有のインタリーブ | 物理的な同時実行 |
必要資源 | 単一コアでも機能 | 複数コアやGPUが必要 |
向き不向き | I/O中心のワークロード | CPU中心のワークロード |
代表モデル | 非同期I/O、イベントループ | マルチスレッド、SIMD、GPU |
よくある誤解 | 非同期=並列ではない | スレッド=常に並列ではない |
注意点 | ブロッキング回避、バックプレッシャー | 競合、デッドロック、キャッシュの局所性 |
プログラミングで意識すべき観点
目的は応答性か総スループットか
ユーザー操作への反応を素早くすることが目的なら並行処理、計算全体を早く終わらせたいなら並列処理を優先します。
UIやサーバの待ち時間短縮は前者、画像処理や数値計算の高速化は後者が基本です。
リソースのボトルネック把握
遅い原因がネットワークやディスクなどのI/Oか、CPUか、メモリ帯域かを計測します。
I/Oが支配的なら非同期化、CPUが支配的なら分割並列化が効きます。
最適化は常にプロファイリングに基づかせます。
コード設計とデバッグ性
並行・並列化は設計を複雑にします。
共有状態の削減、明確なタスク境界、キャンセルとエラーハンドリングの設計、ログやトレースの整備が重要です。
高水準の抽象(キュー、Future、チャネルなど)を活用すると理解しやすくなります。
並行処理の実行モデルとメリット

非同期処理とイベントループ
イベントループの基本
イベントループは1本(または少数)のスレッドで多数のI/O操作を監視し、完了イベントに応じてコールバックやタスクを実行します。
I/O待ちの間に他の処理へ切り替わるため、スレッドの増殖やコンテキストスイッチのコストを抑えられます。
async/awaitとコールバック
非同期I/Oを扱う手段として、コールバック、Promise/Future、async/awaitが使われます。
async/awaitは直線的な記述で可読性を保ちつつ、実体は待ち中にスレッドを占有しない点が利点です。
代表例
JavaScript(Node.js)はイベントループが中心です。
Pythonのasyncio、RustのTokio、C#のasync/await、JavaのCompletableFutureや仮想スレッドなども非同期モデルの代表例です。
I/O待ちを重ねて効率化
ネットワークやディスクの待ち時間
WebリクエストやDB問い合わせ、ファイル読み書きなどは待ち時間が大きく、CPUは多くの時間アイドルになります。
非同期化により、この待ち時間に別の処理を進められます。
オーバーラップの効果
100msのI/Oを10件直列に処理すると1秒かかりますが、非同期で重ねられれば、理想的には100ms強で完了します。
スループットが大幅に改善し、同じハードウェアでより多くの要求をさばけます。
バックプレッシャーと流量制御
並行数を増やし過ぎると、キューが膨らみメモリや下流サービスに負荷が集中します。
上限値、キューサイズ、レート制限、タイムアウトを設計に組み込み、背圧(バックプレッシャー)で安定動作を保ちます。
向いているタスクと注意点
向いているタスク例
Webサーバ、APIゲートウェイ、クローラ、チャットやゲームの接続管理、GUIの応答性維持、ストリーム処理の入出力など、I/O中心の処理に適しています。
注意点
イベントループをブロックする同期処理を混ぜると、全体が止まります。
CPU重い作業はワーカーへオフロードし、タイムアウトやリトライ、キャンセルを標準装備にします。
観測性として構造化ログや分散トレースを整備すると、障害解析が容易になります。
並列処理の実行モデルとメリット
マルチコアとマルチスレッド
スレッドとプロセスの役割
スレッドは同一プロセス内でメモリ空間を共有し、軽量に並列実行できます。
プロセスは分離されたメモリ空間で安全性が高い一方、通信はコストがかかります。
用途に応じて使い分けます。
スレッドプールとスケジューリング
毎回スレッドを作る代わりにプールで再利用すると、作成/破棄コストや過剰な並列度の問題を抑えられます。
タスクキューに仕事を投げ、ワーカーが空き次第取り出して実行するのが一般的です。
言語ごとの事情(GILなど)
CPythonにはGILという制約があり、1プロセス内のCPUバウンド処理はスレッドで真の並列になりません。
この場合はmultiprocessing、C拡張、NumbaやCython、あるいは並列処理ライブラリを用います。
CPU集約処理の高速化
分割統治とスピードアップ
データや仕事を独立な塊に分割し、複数コアで同時に処理すれば、ほぼ分割数に比例して短縮できます。
画像のフィルタ、科学計算、暗号、機械学習のバッチ推論などが典型です。
Amdahlの法則の直感
プログラムの一部しか並列化できない場合、加速の上限はその逐次部分で決まります。
例えば全体の20%が逐次なら、並列度をいくら上げても最大5倍程度が限界です。
並列化の対象選びが重要です。
メモリ階層とキャッシュの局所性
並列化するとメモリ帯域がボトルネック化しがちです。
キャッシュに収まるデータ分割、偽共有(false sharing)の回避、NUMA配置への配慮でスケールが良くなります。
データ並列とタスク並列
データ並列
同じ処理を大量のデータ要素に適用します。
画像の各ピクセル処理、配列のmap/reduce、行列演算などです。
SIMDやGPUが得意とし、数十〜数千スレッドで一気に処理できます。
タスク並列
異なる処理を独立タスクに分けて同時実行します。
パイプラインの各段を別コアで動かしたり、複数の独立ジョブを同時に回す形です。
スレッドプールやワークスティーリングが有効です。
ハイブリッド
現実のシステムでは両者を組み合わせます。
例えば、各タスクの内部はデータ並列で高速化し、外側は複数タスクをタスク並列で走らせます。
機械学習の学習では、ミニバッチ単位のデータ並列とノード間のモデル並列が併用されます。
並行処理と並列処理の選び方

I/O中心なら並行 CPU中心なら並列
まずプロファイルする
どこで時間を使っているかを計測します。
CPU使用率、スレッドのスタックトレース、I/O待ち時間、GC時間、ロックの待ち時間などを可視化し、ボトルネックに合わせて方針を決めます。
判断フローの例
API呼び出しやDB待ちが支配的なら非同期I/Oで並行化、CPUが常時高止まりならデータ分割で並列化を検討します。
I/Oの前処理やシリアライゼーションが重い場合は、非同期キューで受けてワーカー群が並列処理する混成型が有効です。
両者の併用
Webサーバは全体を非同期で並行化しつつ、画像サムネイル生成のようなCPU重い部分をワーカーへ並列オフロードします。
パイプライン全体で見ると、並行と並列は補完関係にあります。
実装のヒントとツールの例
言語別の代表例と使い分け
下の表は、主要言語における並行処理と並列処理の代表的な手段を対応付けたものです。
実案件では、標準ライブラリや枯れたランタイムを優先すると安定します。
言語/基盤 | 並行処理の手段 | 並列処理の手段 |
---|---|---|
JavaScript(Node.js) | イベントループ、Promise、async/await | Worker Threads、child_process、ネイティブアドオン |
Python | asyncio、非同期ライブラリ(aiohttpなど)、I/Oはthreadingも有効 | multiprocessing、concurrent.futures.ProcessPool、NumPy/Numba/Cython、Joblib、Dask |
Java/Kotlin | CompletableFuture、仮想スレッド(Project Loom)、NIO | ForkJoinPool、parallelStream、Executors、Akka(クラスタ) |
Go | goroutineとchannel(並行)、I/Oはノンブロッキング | GOMAXPROCS設定、複数goroutineでCPU処理、cgo/ASM最適化 |
Rust | async/await(Tokio、async-std)、非同期I/O | rayon(並列イテレータ)、std::thread、SIMD、GPU連携 |
C/C++ | epoll/kqueue + 非同期I/O、libuv | std::thread、std::async、OpenMP、TBB、SIMD、CUDA/OpenCL |
データ基盤 | 非同期クライアント、メッセージング | Spark、Flink、Ray、分散MapReduce、GPU推論 |
規模拡大のための基盤
単一マシンでの並列化に限界が来たら、メッセージキュー、ストリーム処理、分散ジョブスケジューラ、Kubernetesなどのオーケストレーションで水平スケールを検討します。
その際も非同期I/Oで待ちを隠しつつ、計算は各ノードで並列化する方針が有効です。
競合状態とデッドロックの回避
基本用語の確認
競合状態は、複数の実行が共有データへ無秩序にアクセスして結果が不定になる現象です。
デッドロックは、互いに相手のリソース解放を待ち続けて全体が停止する状態です。
ほかにリブロック、優先度逆転、ライブロックも実務で問題になります。
回避の原則
共有状態を最小化し、できれば不変オブジェクトを使います。
ロックが必要な場合は、常に同じ順序で取得し、保持時間を短く保ちます。
タイムアウトや再試行可能な設計を採用し、キャンセル可能性を組み込むと回復力が高まります。
実践テクニックとツール
高水準の抽象(メッセージパッシング、チャネル、ワークキュー、アクターモデル、トランザクショナルメモリ)を活用します。
イベントループではブロッキングI/Oを避け、重い処理はワーカーへ委譲します。
テストではデータ競合検出器(ThreadSanitizer、Goの-race、Javaの並行テストツール)やフェイルポイントを用いて不具合を早期発見します。
まとめ
並行処理は時間共有で複数の仕事を進めて応答性やスループットを高め、I/O中心の場面で威力を発揮します。
並列処理は物理的に同時実行して処理時間を短縮し、CPU中心の計算で効果的です。
両者は対立概念ではなく、現実のアプリケーションでは併用が基本です。
選定の第一歩はプロファイリングでボトルネックを知ることです。
非同期I/Oで待ちを隠し、重い計算は分割して複数コアやGPUに並列化する、という筋の良い設計を心がけましょう。
さらに、共有状態の削減、ロック順序、タイムアウト、観測性の整備などの原則を徹底すれば、安定して速いソフトウェアに近づきます。