CFG Scaleで変わるStable Diffusion生成品質｜最適設定と活用ガイド -

この記事では、Stable Diffusionの重要パラメータ「CFG Scale」の意味や仕組み、画像への影響を比較しながら解説します。数値設定による描写の違いや最適値の見つけ方、Sampling stepsとの関係、理想の画像を得るための調整方法が理解できる内容です。

1 CFG Scale（Classifier-Free Guidance Scale）とは
2 CFG Scaleの動作原理
- 2.1 数値を変化させた場合の生成画像への影響
  - 2.1.1 低いCFG Scale設定の特徴と効果
  - 2.1.2 高いCFG Scale設定の特徴とリスク
- 2.2 Stable Diffusionの画像生成プロセスとの関連
3 CFG Scaleの設定値と最適化方法
- 3.1 目的別のおすすめCFG Scale設定値
  - 3.1.1 汎用的な画像生成に適した値
  - 3.1.2 高品質イラスト・実写風画像を狙う設定例
4 CFG Scale調整のメリットと注意点
5 CFG Scaleの設定手順
- 5.1 Web UIやAUTOMATIC1111での操作方法
6 トラブルシューティングと改善策
- 6.1 CFG Scaleを変更しても精度が上がらない場合の原因
7 CFG Scaleを活用した高品質生成テクニック
- 7.1 拡張機能（Hires.fixなど）との連携
8 まとめ
- 8.1 CFG Scale理解のポイント整理
- 8.2 最適化のコツと今後の活用展望

CFG Scale（Classifier-Free Guidance Scale）とは

Stable DiffusionにおけるCFG Scaleの役割

CFG Scale（Classifier-Free Guidance Scale）は、Stable Diffusionをはじめとする画像生成AIモデルにおいて、プロンプト（指示文）と生成結果との整合性を制御するための重要なパラメーターです。この値は、モデルがどの程度プロンプトの内容に忠実に従うか、あるいは自由に創造的な出力を行うかを数値的に設定します。

たとえば、CFG Scaleの値を高く設定すると、モデルはプロンプトの指示に強く従い、より意図通りの特徴を持つ画像を生成します。逆に、低く設定すると、プロンプトの解釈に自由度が生まれ、創造的で偶発的な結果になる傾向があります。

Stable Diffusionにおけるこのスケールは、生成プロセス中で「ガイダンス強度」として作用し、モデル内部のノイズ除去の段階でプロンプトとの整合性を調整します。そのため、画像生成品質を左右する中核パラメーターのひとつといえるでしょう。

プロンプトへの忠実度と創造性のバランスを制御する仕組み

CFG Scaleは、「プロンプトへの忠実度」と「創造的多様性」という2つの方向性を制御するレバーのような存在です。内部的には、「条件付き推論（プロンプトあり）」と「非条件付き推論（プロンプトなし）」の出力を比較し、その差分を指定した倍率（CFG Scale値）で拡大して最終結果に反映します。

つまり数値を上げるほど、条件付きの出力を強調しプロンプト通りに生成しやすくなり、下げると非条件付きの要素が増えてオリジナリティが高まるという仕組みです。

低いCFG Scale：生成結果が曖昧になりやすいが、偶然の美しさや独創性が生まれる。
中程度のCFG Scale：プロンプトの内容を反映しつつ、自然な表現を維持できる。
高いCFG Scale：明確でプロンプトに忠実だが、過剰な彩度や不自然なディテールが出ることもある。

このようにCFG Scaleは単なる数値パラメーターではなく、表現の方向性や作風を変える「創作コントローラー」として活用できます。

他のパラメーター（Sampling StepsやMethod）との関係

CFG Scaleの効果は、それ単体ではなく他の生成パラメーターとの組み合わせによっても大きく変化します。特に重要なのが、Sampling Steps（サンプリングステップ数）とSampling Method（サンプリング方式）です。

Sampling Stepsはノイズを除去し画像を洗練させる反復回数を示すため、CFG Scaleが高すぎるとステップ数が十分でない場合に破綻した結果が出ることがあります。逆にステップ数を増やすことで、CFG Scale高設定時のノイズや色飛びを補正できるケースもあります。

Sampling Method（例：Euler、DPM++、Heunなど）は、ノイズ除去の手法によりCFG Scaleへの反応が異なるため、同じ数値設定でも生成傾向が変わります。つまり、CFG Scaleの最適値は固定ではなく、使用するモデル・Sampler・目的に応じて調整すべきということです。

このように、CFG ScaleはStable Diffusionにおける「生成の方向性」を決定づける核となる要素であり、他パラメーターと連動してチューニングすることで、より理想的な画像生成を実現できます。

CFG Scaleの動作原理

数値を変化させた場合の生成画像への影響

CFG Scale（Classifier-Free Guidance Scale）は、Stable Diffusionにおいて「プロンプトへの忠実度」と「創造的な自由度」を調整する中核パラメーターです。この値を変化させることで、生成される画像の方向性やディテール再現性が大きく変化します。
一般的に、CFG Scaleの数値が低いほどAIは曖昧で自由な解釈を行い、逆に高いほどプロンプトの指示に強く従います。そのため、CFG Scaleの設定を理解し調整することが、理想的な画像を得るための鍵となります。

低いCFG Scale設定の特徴と効果

CFG Scaleを低い値（例：4～6程度）に設定すると、モデルはプロンプトの制約をゆるく解釈し、より創造的で抽象的な結果を生成します。
この状態では、AIが持つ潜在的な学習知識を活かし、思いもよらない構図やスタイルが生まれやすくなるのが大きな利点です。特に以下のような用途に適しています。

芸術的・抽象的な表現を重視した画像生成
新しい発想やデザイン案のインスピレーションを得たい場合
自然な色味や有機的な構図を求める場合

ただし、CFG Scaleが低すぎると、プロンプトの内容を無視した結果になりやすく、意図したテーマやモチーフが崩れてしまうことがあります。したがって、低値で生成する場合でも、プロンプト設計を工夫して意図を補強することが重要です。

高いCFG Scale設定の特徴とリスク

CFG Scaleを高い値（例：10～15以上）に設定すると、生成される画像はプロンプトへの忠実度が大きく上がり、指示どおりの内容に近づきます。この効果により、構図・ポーズ・色合いなどが明確に指定どおりとなり、ターゲットビジュアルを正確に再現できます。特に以下のケースで有効です。

精密なオブジェクト描写やリアルな質感再現を求める場合
特定の構図・ポーズを正確に再現したいイラスト制作
企業やブランドのビジュアルガイドラインに沿った出力

一方で、CFG Scaleを過剰に上げると、AIがプロンプトの指示を過剰に強調しすぎ、画像が不自然に彩度過多となったり、ノイズや歪みが発生するリスクがあります。特に背景や光の処理が破綻しやすく、全体の調和が崩れることがあるため注意が必要です。
そのため、品質と安定性を両立させたい場合は、7～12付近の中間値で微調整するのが一般的なアプローチです。

Stable Diffusionの画像生成プロセスとの関連

Stable Diffusionでは、ノイズから画像を段階的に生成する「拡散過程」の中で、CFG Scaleがガイド信号の強度を制御しています。具体的には、プロンプト（条件付き生成）とノイズ（無条件生成）それぞれの出力をブレンドし、CFG Scale値によって両者のバランスを調整する仕組みです。
値が高いほど条件付き出力が強まり、プロンプト指示に忠実な画像へ近づく一方、値が低いほど無条件成分が優勢となり、自由な生成結果が得られます。
つまり、CFG ScaleはStable Diffusionの生成プロセスにおける「指示の強さ」を数値化したものであり、生成スタイルの方向性を根本的に左右する重要なパラメーターといえます。

CFG Scaleの設定値と最適化方法

目的別のおすすめCFG Scale設定値

汎用的な画像生成に適した値

汎用的な画像生成を目的とする場合、CFG Scale（Classifier-Free Guidance Scale）の設定は「7～10」の範囲が最も安定した結果を得やすい傾向にあります。
この範囲では、プロンプトへの忠実度と生成の自然さがバランス良く保たれるため、風景・人物・キャラクターなどの幅広いジャンルに対応可能です。
具体的には以下のようなケースで効果を発揮します。

構図に柔軟性を残した自然な画像生成を行いたい場合
多様なプロンプトで試行を重ねたい場合
AIの自動補完力を活かしつつ破綻を避けたい場合

一方、CFG Scaleが低すぎる（例：3～5）と、プロンプトの意図が反映されにくく、想定外の構図が生まれがちです。逆に高すぎる（12以上）と、プロンプトの内容を過剰に反映し、不自然な形や色の破綻が発生する可能性があります。
そのため、まずは中間値（例：8）から試すのが最も効率的です。

高品質イラスト・実写風画像を狙う設定例

高品質なイラストや実写風の画像を生成する際は、CFG Scaleをやや高めに設定するのが効果的です。特に、細部の解像感や写実的な質感を重視する場合は「10～14」程度が目安とされています。
この範囲ではプロンプトへの反応が敏感になり、ディテール表現が強化されるため、特に人物の瞳・髪の毛・布素材などの質感再現に優れます。

イラスト系：9～12 … 鮮やかでクリアな線画表現を強調
実写系：11～14 … カメラの露光や被写界深度を再現しやすい

ただし、CFG Scaleを上げすぎると彩度過多やノイズ発生といった副作用も起きやすくなります。そのため、高品質を狙う場合も他のパラメータ（Sampling Stepsや使用モデル）とバランスをとることが重要です。
特に、リアル系の生成ではシード値やライティング指定を組み合わせることで、より安定した高精度表現を得ることができます。

CFG Scale調整のメリットと注意点

プロンプトへの忠実度を高める利点

CFG Scale（Classifier-Free Guidance Scale）は、画像生成AIにおいて、プロンプト（文章で指定した内容）に対する忠実度をコントロールするための重要なパラメーターです。CFG Scaleを適切に調整することで、「イメージした通りの結果を出す」精度を高めることが可能になります。例えば、低めの値ではAIの解釈が自由になりすぎてプロンプトの意図から外れた生成結果になりがちですが、CFG Scaleを上げることで指示通りの構図・被写体・スタイルが反映されやすくなります。
また、高精度なプロンプト解釈により、商用利用を前提とした広告素材や、ブランドガイドラインに沿ったビジュアル制作にも有効です。プロジェクトの要件を厳密に満たしたい場合、CFG Scaleの設定は品質管理上のキーポイントになると言えるでしょう。

創造的な生成結果を得るための工夫

一方で、CFG Scaleを調整する際には「創造性」とのバランスを意識することも欠かせません。数値を上げすぎるとAIがプロンプトに縛られすぎ、画一的で表現の幅が狭まる傾向があります。創造的な結果を求める場合は、CFG Scaleをやや低めに設定し、AIの想像力を活かすのが効果的です。
その際の工夫として、ネガティブプロンプトを適切に活用する、またはサンプリング手法（method）を変更して生成のランダム性をコントロールする方法も有効です。適切なCFG Scaleの設定は、単なる「数値調整」ではなく、AIとの対話を設計する一つのプロセスと考えるとよいでしょう。

値を上げすぎた際に起こる破綻や彩度過多への対処

CFG Scaleを過剰に高く設定すると、画像が極端な彩度になったり、ノイズのようなアーティファクトが発生するなど、品質面での破綻を招くことがあります。これはAIが「プロンプトの内容を過剰に再現しよう」とする結果、自然なバランスを失うためです。
対処法としては、以下のポイントを意識しましょう。

CFG Scaleを段階的に下げ、プロンプトの忠実度とビジュアルの自然さの中間点を探る。
Dynamic Thresholding（CFG Scale Fix）などの補正機能を併用し、破綻を自動的に抑制する。
過度な彩度が目立つ場合は、ポストプロセスで彩度・コントラストを調整する。

CFG Scaleは「上げれば良い」という単純な指標ではなく、あくまで目的に応じた最適値を見極めるべきパラメーターです。過信せず、試行と観察を重ねながら調整していくことが、高品質な生成結果を得る秘訣と言えるでしょう。

CFG Scaleの設定手順

Web UIやAUTOMATIC1111での操作方法

Stable Diffusionを用いた画像生成において、CFG Scale（Classifier-Free Guidance Scale）の値を適切に設定することは、プロンプトの再現性と創造性のバランスを取る上で非常に重要です。特に、Web UIや「AUTOMATIC1111 Stable Diffusion WebUI」などのツールを利用することで、初心者でも直感的に数値を調整することが可能です。

AUTOMATIC1111版WebUIでは、画像生成タブにある「Sampling method」や「Steps」の設定欄のすぐ下に「CFG Scale」のスライダーまたは数値入力ボックスが配置されています。操作手順は以下の通りです。

プロンプト（正のプロンプト）とネガティブプロンプトを入力します。
「Sampling Steps」や「Sampling method」を設定します。
「CFG Scale」のスライダーを動かして数値を設定します（一般的に7〜12あたりが初期値として適切）。
設定が完了したら「Generate」ボタンを押して画像を生成します。

また、手動で入力する場合は整数値または小数値も受け付けるため、より細かい調整を行いたい場合には「7.5」や「11.2」といった値を直接入力するのがおすすめです。
さらに、複数画像を比較して最適なCFG Scaleを見つけたい場合は、「Batch count」や「X/Y plot」機能を使うと効率的に比較検証ができます。

Web UI上の項目はバージョンや拡張機能によって表示位置が多少異なる場合がありますが、基本的な操作フローは共通しています。
特にAUTOMATIC1111では、CFG Scaleを変化させた際の結果がわかりやすく反映されるため、プロンプトのチューニングにも最適です。

トラブルシューティングと改善策

CFG Scaleを変更しても精度が上がらない場合の原因

Stable DiffusionでCFG Scaleを調整しても生成画像の品質が思うように向上しない場合、単純に数値を変えるだけでは解決しないケースがあります。これは、CFG Scaleが画像生成の「方向性」を制御するパラメーターであり、他の設定やモデル選択とも密接に関係しているためです。以下では、主な原因とその改善策を具体的に解説します。

プロンプトやネガティブプロンプトの見直し

CFG Scaleの効果が十分に発揮されない原因のひとつに、プロンプトの内容が不明確または過剰であることが挙げられます。指示が多すぎると生成AIが焦点を定めにくくなり、どれだけCFG Scaleを高めても的確な描写が得られません。
また、ネガティブプロンプトの指定が弱すぎると、不要な要素が排除できず精度が安定しない場合もあります。

プロンプトは「構図」「被写体」「雰囲気」などを簡潔に明記する。
ネガティブプロンプトには「歪み」「ノイズ」「低品質」など具体的な否定表現を追加。
不要な曖昧表現（例：「beautiful」「perfect」など）は減らし、明示的指示に変える。

これにより、CFG Scaleの効果が明確に反映され、精度向上が期待できます。

Sampling Stepsの調整

CFG ScaleとSampling Stepsは密接な関係があります。Sampling Stepsが少なすぎると、CFG Scaleを上げても情報が十分に反映されず、生成画像が荒くなったりノイズが増えることがあります。逆に、Stepsを極端に増やしてもノイズ除去が過剰になり、CFG Scaleの影響が薄まる場合もあります。

一般的には、CFG Scaleを中〜高めに設定する場合はSampling Stepsを20〜30程度に調整するとバランスが取りやすいとされています。用途やモデルにより最適値は異なるため、一定のシードを固定して複数パターンを比較し、最も安定した描写を見極めるのが効果的です。

モデル・拡張機能の最適な選択

CFG Scaleの挙動は、使用するモデルや拡張機能によっても大きく異なります。特に、モデルが特定のスタイルや被写体に特化している場合、CFG Scaleをどれだけ変えても結果が限定的になることがあります。また、VAE（Variational Auto Encoder）の設定や拡張機能の組み合わせも影響を及ぼします。

使用中のモデルが対象スタイル（例：実写風、アニメ調）に適しているか確認する。
Hires.fixやTiled Diffusionなどの拡張機能を活用し、CFG Scaleの影響を均等化。
モデルごとの推奨CFG範囲（例：8～12など）を公式ドキュメントで確認。

このように、CFG Scale単独での改善を試みるよりも、モデル・拡張機能を含めた全体最適化を行うことで、より高精度な生成結果が得られるようになります。

CFG Scaleを活用した高品質生成テクニック

拡張機能（Hires.fixなど）との連携

Stable Diffusionによる高品質な画像生成を実現するうえで、CFG Scale（Classifier-Free Guidance Scale）の最適化と拡張機能の併用は欠かせません。特に「Hires.fix」などの高解像度補正機能を活用することで、異なる解像度やディテールの段階的生成においてCFG Scaleの効果を最大化できます。

Hires.fixは、まず低解像度で画像構成を決定し、その後に高解像度でリファイン（再生成）する処理を行います。この際、低解像度段階では比較的低めのCFG Scale（例：7〜9）を設定し、構図や全体バランスを安定させ、高解像度化段階ではやや高めの値（例：9〜12）に設定することで、細部ディテールの再現性を向上させることが可能です。これにより、プロンプトへの忠実度と自然な表現力を両立できます。

さらに、他の拡張機能との組み合わせも効果的です。例えば、ControlNetでポーズや構図を固定しつつ、Hires.fixで高精細化を行う場合、CFG Scaleを段階的に調整することで「構成の一貫性」と「高解像ディテール」の両立が容易になります。逆に、CFG Scaleを過度に高めすぎると、ノイズや色ムラ、ディテールの破綻を引き起こすリスクがあるため、適正範囲を探る微調整が重要です。

総じて、Hires.fixなどの機能とCFG Scaleを連携させることで、生成工程をより戦略的に制御できます。単なる数値設定にとどまらず、「どの段階で、どのレベルのガイダンスを加えるか」を意識することで、後処理不要な高品質画像生成を実現できます。

まとめ

CFG Scale理解のポイント整理

CFG Scale（Classifier-Free Guidance Scale）は、Stable Diffusionなどの画像生成AIにおいて、プロンプトへの忠実度と創造性のバランスを制御する最も重要なパラメーターの1つです。値を上げることで指示通りの画像が生成されやすくなり、下げることで自由度の高い、多様な結果が得られます。この性質を理解することで、目的に応じた最適な絵作りが可能となります。

特に押さえるべきポイントは次の通りです。

CFG Scaleは「モデルがどれだけプロンプトを重視するか」を調整する指標。
数値が低いと生成結果は創造的になりやすく、高いと忠実性が高まるが、破綻のリスクも。
他の要素（Sampling Steps、ネガティブプロンプトなど）と組み合わせることで効果が変化する。
モデルや目的によって“最適値”は異なるため、試行と比較が必須。

すなわちCFG Scaleは単なる「数値調整」ではなく、生成AIの方向性を意図的にコントロールする戦略的パラメーターであると言えます。

最適化のコツと今後の活用展望

CFG Scaleの最適化には、モデル特性や生成目的を踏まえた調整が不可欠です。たとえば、リアルな写真風の出力を狙う場合は中〜高めの数値（例：7〜12程度）が適していますが、アート性を重視する場合は5以下など低めの設定が有効です。さらに、Sampling Stepsやシード値を固定しながら検証を行うことで、より一貫性のある最適値を見つけやすくなります。

今後の展望としては、CFG Scaleの自動最適化機能や、生成中に動的に値を変化させるDynamic CFG制御の研究が進んでいます。これにより、生成品質を維持しながら柔軟な表現が可能となり、商業利用やデザインワークフローの効率化が期待されています。

最終的には、CFG Scaleを理解し使いこなすことが、生成AIの品質とクリエイティビティを両立させる鍵となるでしょう。継続的なチューニングと多角的な検証こそが、最高の生成結果を導く道です。