ディープラーニングとは何か ― 「深い」ネットワーク
層を深くするほど、より高度な特徴を学習できます。
層を重ねることで何が変わるか
ディープラーニング(深層学習)とは、人間の脳の神経細胞(ニューロン)のネットワーク構造を模倣した「ニューラルネットワーク」を多層に重ねた機械学習の手法です。「多層=深い(Deep)」が名前の由来です。
層を深くするほど、モデルはより複雑・抽象的な特徴を学習できます。画像認識を例にとると、浅い層では「縦横の線(エッジ)」を認識し、深い層になるにつれて「目・鼻の形」「顔全体のパターン」という高レベルの概念を自動的に学習します。人間がルールを書く必要がなく、これがディープラーニング最大の強みです。
2012年の転換点
ディープラーニングが広く注目されたのは2012年、大規模画像認識コンテスト(ImageNet)でAlexNetというディープラーニングモデルが従来手法に16ポイント以上の差をつけて優勝したことがきっかけです。翌年以降、画像認識・音声認識・自然言語処理の各分野でディープラーニングが標準手法となり、現在のAIブームへとつながっています。
CNN ― 画像認識を変えた構造
CNNは画像から特徴を自動抽出する革新的な技術です。
畳み込み演算の仕組み
CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)は、画像認識に特化したアーキテクチャです。通常のニューラルネットワークが全ピクセルを同時に処理するのに対し、CNNは小さな「フィルター」を画像全体にスライドさせながら局所的なパターンを検出します。これを畳み込み演算と呼びます。
たとえば縦のエッジを検出するフィルターを使えば、画像のどこにそのエッジが存在するかを効率よく抽出できます。複数のフィルターを重ねることで、エッジ→形→顔のパーツ→顔全体という階層的な特徴抽出が実現します。
プーリングと特徴マップ
畳み込み演算の後にはプーリングという処理を行います。特徴マップ(畳み込みの出力)を空間的に縮小することで、計算量を削減し、位置の微小なズレに対する頑健性(ロバスト性)を持たせます。「画像が少し傾いていても同じ物体と認識できる」のはこの仕組みのおかげです。
畳み込みは「特徴を見つける処理」、プーリングは「特徴をまとめて情報量を減らす処理」と考えると分かりやすいです。
実際の応用例
CNNは現在、非常に幅広い分野で実用化されています。
- 製造業:生産ラインの外観検査(傷・汚れの自動検出)
- 医療:X線・MRI画像の病変検出支援
- 流通:無人レジの商品認識、セルフチェックアウト
- セキュリティ:顔認証・監視カメラの異常検知
RNNの登場と限界
文章・時系列データにはRNNが使われましたが、限界もありました。
時系列データへの対応
CNNが画像(空間的なデータ)に強い一方、文章・音声・株価のような時系列データには別のアーキテクチャが必要です。RNN(Recurrent Neural Network:再帰型ニューラルネットワーク)は、前のステップの出力を次のステップの入力に引き継ぐ構造を持ち、順序に意味があるデータを扱えます。
「今日は」→「天気が」→「よい」という文章を処理する場合、「よい」の意味を正確に解釈するには前の単語「天気が」「今日は」の情報が必要です。RNNはこの「文脈の引き継ぎ」を実現しました。
長距離依存問題という壁
RNNには致命的な弱点がありました。長い文章になると、離れた単語間の関係が学習しにくくなるという「長距離依存問題」です。「東京に住む30年来の友人が先週送ってくれた手紙に___と書いてあった」という文章で、「書いてあった」が何を指すかを把握するには、文章の先頭まで遡る必要があります。RNNはこのような長距離の依存関係を学習するのが困難でした。
TransformerとAttentionの革新
Transformerが現代AIの中核技術を作りました。
Attentionとは「注目度の重みづけ」
Attention(注意機構)とは、入力の各要素が他のすべての要素とどれだけ関連しているかを数値化し、重みとして利用する仕組みです。RNNのような順次処理ではなく、全要素間の関係を一括して計算できるため、長距離依存問題を克服します。
上記の例文で言えば、「書いてあった」という単語が「手紙」という単語に強く注目(高い重みを割り当て)し、「東京に」や「30年来の」には低い重みを割り当てることで、文章の意味を正確に捉えられます。
Transformerがもたらした革新
2017年にGoogleが発表した論文「Attention Is All You Need」で提案されたTransformerは、Attentionのみを使って自然言語処理を行うアーキテクチャです。RNNの逐次処理(前から順に処理する制約)をなくし、全要素を並列に処理できます。この並列性により、大規模データを使った効率的な学習が可能になりました。
BERTとGPTへの発展
Transformerをベースにして生まれたモデルが、現在のAIの中核を担っています。
- BERT(2018年・Google):文章全体の文脈を双方向に理解する事前学習モデル。検索エンジンの精度向上に貢献
- GPTシリーズ(2018年〜・OpenAI):文章を左から右に生成するモデル。ChatGPTの基盤
- Claude・Gemini:同じTransformerベースの別系統のLLM
ディープラーニングが普及した3つの背景
データ・GPU・アルゴリズムの3つが揃って現在のAIが実現しました。
大規模データの整備
ディープラーニングは大量のデータがなければ機能しません。インターネットの普及とスマートフォンの爆発的な広がりにより、2010年代以降、画像・テキスト・音声データが人類史上かつてない規模で蓄積されるようになりました。ImageNetの1,400万枚以上の画像データセットや、Wikipedia・書籍・ウェブページを含む数兆語規模のテキストコーパスがLLM学習を支えています。
GPUとクラウドコンピューティング
ニューラルネットワークの学習は、同種の計算を並列に大量実行する処理です。GPU(Graphics Processing Unit:画像処理半導体)はこの並列計算が得意で、従来のCPUと比べて深層学習の学習速度を数十〜数百倍に高速化しました。さらにAWS・Google Cloud・Azureなどのクラウドサービスにより、大企業でなくても大規模なGPU計算資源を時間単位で利用できるようになりました。
アルゴリズムの改良(ResNetなど)
層を深くするほど「勾配消失問題」という現象が起き、学習がうまく進まなくなります。2015年にMicrosoftが発表した残差接続(Residual Connection)を採用したResNetは、入力を直接出力に足し合わせる「ショートカット接続」によりこの問題を解決し、150層を超える超深層ネットワークの学習を可能にしました。この発見がTransformerをはじめとした現代の超大規模モデルへの道を開きました。
まとめ
この記事では、ディープラーニングの構造と主要アーキテクチャを解説しました。
- ディープラーニングは機械学習の中の一手法で、多層ニューラルネットワークにより抽象度の高い特徴を自動抽出する
- CNNは畳み込み演算で画像のローカルなパターンを階層的に学習し、画像認識・外観検査等で活躍
- RNNは時系列・文章処理に対応したが、長距離依存問題という限界があった
- TransformerはAttentionにより全要素間の関係を並列計算し、RNNの限界を超えた。GPT・Claude・Geminiの基盤
- 普及の背景はデータ・GPU・アルゴリズム改良(ResNet等)の3要因
これらを理解することで、AIベンダーが提案する技術の妥当性を判断し、自社課題に合ったアーキテクチャの選択を議論できるようになります。


コメント