TOP UX用語 リサーチ・分析・テスト System Usability Scale (SUS)

System Usability Scale (SUS) システムユーザビリティスケール

システムや製品全体の「使いやすさ」を測定するために最も広く使われている、10項目の質問からなる標準的な評価尺度

SUS(System Usability Scale)は、ユーザーがシステムや製品を一通り使用した後に、「全体としてどう感じたか」を10個の質問で尋ねる調査手法である。SEQ(Single Ease Question)が「特定のタスク」に焦点を当てるのに対し、SUSは「システム全体の印象」を包括的に評価する「マクロな視点」を提供する。

この手法の強みは、「信頼性の高さ」と「比較のしやすさ」にある。わずか10問のアンケートでありながら、数千件の研究データによってその統計的な正確さが証明されており、算出されたスコア(0〜100点)は業界標準のベンチマークと比較が可能である。 例えば、自社アプリのスコアが75点であれば、世の中の平均(68点)よりも「優れている(B評価)」と客観的に判断できる。主観的になりがちな「使い勝手」を、経営層やステークホルダーに数字で説明するための「共通言語」として、産業界で事実上の標準(デファクトスタンダード)となっている。

語源・提唱者・普及者

1986年にDEC社(Digital Equipment Corporation)のJohn Brookeジョン・ブルックによって開発された。 当時、開発現場では「高コストで複雑な実験」ではなく、限られた時間とリソースですぐに実施できる評価手法が求められていた。ブルックは、このニーズに応えるために「Quick and Dirty(手っ取り早くて実用的)」なツールとしてSUSを設計した。 当初は社内ツールだったが、その汎用性の高さから広まり、後にJeffジェフ Sauroサウロらの研究によって詳細な偏差値基準(カーブ・グレーディング)が整備され、絶対的な評価指標へと進化した。

具体的な手順

ユーザビリティテストの全セッション終了後(すべてのタスクを終えた直後)にアンケートを実施する。回答者には「深く考え込まず、直感的に」5段階のリッカート尺度(1:全くそう思わない 〜 5:非常にそう思う)で回答してもらう。

質問項目

回答のバイアス(惰性的な回答)を防ぐため、ポジティブな質問とネガティブな質問が交互に並んでいるのが特徴である。

  1. このシステムを頻繁に使用したいと思うか
  2. システムが必要以上に複雑だと感じたか
  3. システムは使いやすいと思ったか
  4. 使用に技術的なサポートが必要だと思うか
  5. 機能がうまく統合されていると感じたか
  6. システムに一貫性がないと思ったか
  7. 使い方はすぐに習得できると思うか
  8. システムは非常に使いづらいと感じたか
  9. 自信を持って使用できたか
  10. 事前に多くのことを学ぶ必要があると感じたか

スコアの算出(0〜100点)

単純な合計ではなく、以下の手順で正規化を行う。

  1. 奇数項目(ポジティブ): 「回答値 – 1」を計算する
  2. 偶数項目(ネガティブ): 「5 – 回答値」を計算する
  3. 合計と乗算: 上記1と2の合計値に 2.5 を掛ける

データの解釈

算出されたスコアは「パーセンテージ(正答率)」ではなく「順位」に近い指標であることに注意が必要である。68点が全システムの平均値(偏差値50相当)であり、これより高いか低いかで良し悪しを判断する。

  • 80点以上: 非常に優れている(A判定)
  • 68点: 平均的(C判定)
  • 51点未満: 深刻な問題あり(F判定)

Webサイトに限らないユーザビリティ指標

SUSは「技術に依存しない」という特性を持つため、Webサイトに限らず多様なシーンで活用されている。

  1. デジタルヘルス・医療アプリの評価
    信頼性が重要視される医療分野でも標準的に利用されている。研究によると、フィットネス系アプリは平均スコアが高い(約83点)傾向にある一方、純粋な医療管理アプリは平均的(約68点)に留まる傾向があり、開発カテゴリに合わせた目標設定が必要である。
  2. 音声インターフェース(VUI / スマートスピーカー) 画面のないスマートスピーカー(Alexaなど)の評価にも有効である。特に「Q2: 複雑さ」や「Q6: 一貫性」といった項目は、音声対話の自然さを測る指標として機能する。
  3. A/Bテストや競合比較 「自社の旧バージョンと新バージョン」や「自社製品と競合製品」を比較する際に強力なツールとなる。スコア差が統計的に有意かどうかを検証することで、デザイン変更が改悪になっていないかを客観的に証明できる。

個別具体の問題特定には不向き

SUSは「全体感」を測るには最適だが、具体的な「つまずき箇所」を特定するのは苦手である。 そのため、各タスクの直後にSEQを実施して個別の問題点(あの機能が使いにくかった等)を特定し、すべてのタスク終了後にSUSで全体の満足度を測るという「ハイブリッド運用」が最も推奨される。 これにより、「木(個別のタスク)」と「森(システム全体)」の両方を定量的に評価し、改善の優先順位を明確にすることができる。

関連用語

  • UMUX-Lite

Single Ease Question (SEQ)

リッカート尺度

 

NPS

 

BtoB人事業務アプリのコンサルタント→エンジニア→BtoCのWebディレクターを経て、再度BtoB業務アプリとなる物流プラットフォームのUIUXに挑戦。オンライン/オフライン双方でのBtoBUXを改善すべく奮闘中。

「UX用語」のカテゴリー

PHP Code Snippets Powered By : XYZScripts.com