メジャー ・ ディメンション
データのメジャー・ディメンションとは?それらの増やし方について解説しています。
目次
メジャー
メジャーとは
メジャーとは集計の対象になる値のことです。
計算メジャー
ディメンション
ディメンションとは
ディメンションとは属性です。
データを集計するときの
・行、列名、項目
・軸、系列
一般的に「分析の切り口」「分析の軸」「分析視点」のように言われるものです。
ディメンションの粒度
データの日付の値は「年/月/日」です。時刻がありません。従って、購入時間帯別に「売上売価」を集計することは不可能です。午前中に購入する顧客はどの会員コードか?このような集計もできません。
・時間軸で集計する際に最も細かい集計単位は「年/月/日」です。
データの日付の値「年/月/日」から「年」だけをとりだせば「年」を単位に「売上売価」を集計することができます。
・時間軸で集計する際に最も粗い集計単位は「年」です。(データ期間が100万年とがのときは、更に粗い集計粒度をつくることができる)
このように、集計する単位「年/月/日」や「年」の違いを粒度の違いといいます。
時間軸の場合、「年/月/日」→「月」→「四半期」→「年」のように複数の粒度で分析をすることができます。
一般的に「年/月/日」は粒度が細かい、「年」は粒度が粗い、このように呼ばれています。
日付の粒度

エクセルでデータを見える化するときは、
・あらかじめデータへ列を追加する
・ピボットのグループ化機能をつかう (曜日・週のグループ化はできない)
・カレンダーマスタを作成してリレーションする
これらの方法があります。
マスタデータをリレーションする
会員マスタ
誕生日からディメンションをつくる
年齢はメジャーとして集計できる
年齢は数値の値です。そうなるとメジャーとして集計できます。
・年齢の値の合計は無意味
・年齢の値の平均、最大最小値、中央値、偏差、分散、これらの集計はメジャーとして有意義です。
性別も数値の値です。1=男性、2=女性
・性別の値の合計は無意味
・性別の値の平均、最大最小値、中央値、偏差、分散、これらの集計も無意味です。
数値形式ではあるものの、実質的には文字列です。
性別は、個数、重複しない個数のカウントがメジャーになります。
住所
マージしてディメンションをつくる

会員マスタと日別・会員別・売上データをマージします。
・「日付」の最小値
会員の初回購入日
・「日付」の最大値
会員の最終購入日
・期間売上高からデシルを作成
・R・F・Mそれぞれのスコアリング
「初回購入日」「最終購入日」は「年/月/日」ですから、「年/月/日」→「月」→「四半期」→「年」、「週」「曜日」のようなディメンションを作成できます。
メジャー・ディメンションが増加すると
より多くの視点で見える化できる

日別・会員別・売上データのメジャーとディメンションが増えました。

会員マスタのディメンションも増えました。ディメンションの値の個数・重複しない個数のようなメジャーも増えました。
メジャーやディメンションが増えると、新しい気づき・発見の可能性が高まります。
誕生日から「年齢」「年代」「65歳以上かどうか」のようなディメンションを作成することで「分析の切り口」「分析の軸」「分析視点」が多様化するからです。
チャートや表が増加する
メジャー30種類、ディメンション30フィールドのデータからチャートを作成しようと思います。1チャートあたり、1メジャー・1ディメンションに設定すると
30×30 = 900通りのチャートになる。
プリントアウトして見る、エクセルのシートを繰って見るようなことは不可能に近くなります。

多くのメジャー・ディメンションを組み合わせて見える化できるのがエクセルではピボット+スライサーです。タブローのようなBIツールを活用する方法もあります。
メジャーやディメンションが増えると、新しい気づき・発見の可能性が高まります。そして、より多くの人が分析にかかわることでも、新しい気づき・発見の可能性が高まります。