大規模なデータを学習したモデルが新しいテキスト、画像、音声、映像、プログラムコードなどを自動的に生成する技術である。
従来のAIが「分類・予測」に強みを持つのに対し、生成AIは「新しいコンテンツの創出」に重点を置いている点が特徴である。ジェネレーティブAIとも呼ばれる。
例としては、ChatGPT(テキスト生成)、Stable Diffusion(画像生成)、MusicLM(音楽生成)がある。
生成AIは主に「表現やコンテンツを作ること」が得意である。
提唱者
「生成AI」という概念自体に特定の提唱者はいない。深層学習技術の発展、とりわけ GAN(Generative Adversarial Networks, 2014年 イアン・グッドフェロー:Ian Goodfellowによる提唱) および Transformerアーキテクチャ(2017年 Googleのアシシュ・ヴァスワニ:Vaswaniらによる発表) が基盤となっている。
生成AIの普及は、これらの研究者たちの積み重ねによって実現したものである。
イアン・グッドフェロー
アシシュ・ヴァスワニ
デザイン上の利用方法と具体例
生成AIは、プロダクトデザインやUXデザインの分野において、以下のように活用できる。
アイデア発想支援
-
-
例:新しいUIコンセプトをテキストで指示し、AIに複数のワイヤーフレーム案を生成させる。
-
コンテンツ制作の高速化
-
-
例:アプリ内のマイクロコピー、チュートリアル文章、エラーメッセージを自動生成し、A/Bテスト用にバリエーションを用意する。
-
パーソナライズ体験の設計
-
-
例:ユーザーの行動履歴に応じて、個別に最適化されたインターフェースやレコメンド文言を生成する。
-
プロトタイピングと検証
-
-
例:音声アシスタントの会話シナリオを大量に生成し、ユーザーテストで多様なケースを検証する。
-
「この場面に使えるかな?」の具体的な事例
-
カスタマーサポート
チャットボットがFAQの回答を生成し、顧客満足度を高める。 -
教育系アプリ
学習者の進度に応じて問題文や解説を動的に生成する。 -
ECサイト
商品説明文を商品属性から自動生成し、SEO対策や多言語対応を効率化する。 -
ヘルスケアアプリ
ユーザーの行動ログから個別化されたアドバイス文を生成する。
6種類の生成AIモデル
生成AI全体としては 言語・画像・音声・動画・3D・マルチモーダル など多様な分野で活用されている。
1.言語モデル
- LLM(Large Language Model)
2017年にGoogleの研究チームが発表した「Attention is All You Need」 論文
事例:カスタマーサポートやレストラン予約など。
2.画像生成系
-
GAN(Generative Adversarial Networks)
生成器(Generator)と識別器(Discriminator)の二者が競い合う仕組みを利用し、リアルな画像や映像を生成する。
事例:人物のフェイク写真生成、ファッションデザインのプロトタイプ作成。 -
拡散モデル(Diffusion Models, 例: Stable Diffusion, DALL·E)
ノイズから徐々に画像を復元する仕組みを持つ。GANより安定的で高解像度の生成が可能である。
事例:広告ビジュアルの作成、プロダクトのコンセプトアート生成。
3. 動画生成系
-
Video Diffusion / VideoGAN
拡散モデルやGANを動画に拡張したものである。連続するフレームを自然につなぎ、高品質な映像を生成できる。
事例:UIアニメーションのプロトタイプ作成、広告動画の自動生成。
4.音声・音楽生成系
-
音声合成モデル(TTS: Text-to-Speech, 例: Tacotron, VALL-E)
テキストを人間らしい音声に変換する。声質や感情表現の調整も可能である。
事例:ナレーション付きUXプロトタイプ、キャラクターボイスの自動生成。 -
音楽生成モデル(例: Jukebox, MusicLM)
特定のジャンルや楽器構成に基づき新しい楽曲を生成する。
事例:アプリ内のBGM生成、ユーザー体験に合わせた音のパーソナライズ。
5. マルチモーダル生成系
-
CLIP + Diffusion(OpenAIのCLIPなど)
画像と言語を組み合わせ、より意味的に整合性のある生成を実現する。
事例:テキストからUIデザインや説明図を生成、教育教材の自動作成。 -
VLM(Vision-Language Models, 例: Flamingo, Kosmos-1)
テキストと画像を統合的に理解・生成する。
事例:ユーザーが描いたスケッチを自動的にデザイン案に変換。
6.3D生成系
-
NeRF(Neural Radiance Fields)
複数枚の写真から3Dモデルを生成する。3D空間でのレンダリングに強い。
事例:製品デザインのモックアップ、ゲーム用3Dオブジェクト生成。 -
3D拡散モデル(例: DreamFusion)
テキストから直接3Dモデルを生成できる。
事例:家具や家電のコンセプトデザイン、建築ビジュアライゼーション。
関連用語