メジャー ・ ディメンション
データのメジャー・ディメンションとは?それらの増やし方について解説しています。
目次
メジャー
メジャーとは
メジャーとは集計の対象になる値のことです。
日別・会員別・売上データです。
メジャーは
・「売上売価」
・「売上数量」
・「格下売価」
・「格下点数」
他にも潜んでいるメジャーがあります。
・「日付」の重複しない個数
期間中に営業した日数 (売上がゼロの日がなければ) を集計できます。
・「会員コード」の重複しない個数
期間中に購入した会員数を集計できます。
・「日付」または、「会員コード」の個数=行数
購入客数とみなすことができます。
計算メジャー
既存のメジャーから新規メジャーを作成することができます。
・「一品単価」
「売上売価」÷「売上点数」
・「格下率」
「格下売価」÷(「売上売価」+「格下売価」)
エクセルの計算式を作成して列へ計算メジャーを新規作成します。
ディメンション
ディメンションとは
ディメンションとは属性です。
データを集計するときの
・行、列名、項目
・軸、系列
一般的に「分析の切り口」「分析の軸」「分析視点」のように言われるものです。
ディメンションは
・「日付」
・「会員コード」
「日付」、「会員」、あるいは、その組み合わせでメジャーを集計します。
ディメンションの粒度
データの日付の値は「年/月/日」です。時刻がありません。従って、購入時間帯別に「売上売価」を集計することは不可能です。午前中に購入する顧客はどの会員コードか?このような集計もできません。
・時間軸で集計する際に最も細かい集計単位は「年/月/日」です。
データの日付の値「年/月/日」から「年」だけをとりだせば「年」を単位に「売上売価」を集計することができます。
・時間軸で集計する際に最も粗い集計単位は「年」です。(データ期間が100万年とがのときは、更に粗い集計粒度をつくることができる)
このように、集計する単位「年/月/日」や「年」の違いを粒度の違いといいます。
時間軸の場合、「年/月/日」→「月」→「四半期」→「年」のように複数の粒度で分析をすることができます。
一般的に「年/月/日」は粒度が細かい、「年」は粒度が粗い、このように呼ばれています。
日付の粒度
エクセルでデータを見える化するときは、
・あらかじめデータへ列を追加する
・ピボットのグループ化機能をつかう (曜日・週のグループ化はできない)
・カレンダーマスタを作成してリレーションする
これらの方法があります。
マスタデータをリレーションする
会員マスタ
日別・会員別・売上データのディメンションは「会員コード」だけのことが多いと思います。
「会員コード」だけでは「性別」「年齢」「住所」のようなディメンションを使用してメジャーを集計することができません。
そうなると会員マスタとリレーションすることになります。
会員マスタへも粒度が違うディメンションを追加することができます。
誕生日からディメンションをつくる
誕生日の日付の値は「年/月/日」です。「年/月/日」からディメンションを作成することができます。
・「生年」
・「年齢」
・「年齢5歳階級」
・「年齢10歳階級」 (年代)
・「65歳以上」
「65歳以上」の「〇」か「null」かもディメンションです。
ブール型 (ブーリアン型) というデータ型で、「真、または、偽」を判定します。
誕生日の日付の値が「年/月/日」だからといっても「四半期」「週」「曜日」のような粒度のディメンションを作成する必要はないのだろうと思います。
年齢はメジャーとして集計できる
年齢は数値の値です。そうなるとメジャーとして集計できます。
・年齢の値の合計は無意味
・年齢の値の平均、最大最小値、中央値、偏差、分散、これらの集計はメジャーとして有意義です。
性別も数値の値です。1=男性、2=女性
・性別の値の合計は無意味
・性別の値の平均、最大最小値、中央値、偏差、分散、これらの集計も無意味です。
数値形式ではあるものの、実質的には文字列です。
性別は、個数、重複しない個数のカウントがメジャーになります。
住所
住所が1列になっていたら
・「都道府県」
・「市区町村」
・「区」 (政令指定都市等のとき)
・「住所」 (丁目まで)
・「町名」
・「丁目」
あるいは「建物名」のように粗い粒度のディメンションを作成することができます。
・郵便番号の上3ケタ
・電話番号の、「市街局番」「局番」
これらも粗い粒度のディメンションになります。
マージしてディメンションをつくる
会員マスタと日別・会員別・売上データをマージします。
・「日付」の最小値
会員の初回購入日
・「日付」の最大値
会員の最終購入日
・期間売上高からデシルを作成
・R・F・Mそれぞれのスコアリング
「初回購入日」「最終購入日」は「年/月/日」ですから、「年/月/日」→「月」→「四半期」→「年」、「週」「曜日」のようなディメンションを作成できます。
メジャー・ディメンションが増加すると
より多くの視点で見える化できる
日別・会員別・売上データのメジャーとディメンションが増えました。
会員マスタのディメンションも増えました。ディメンションの値の個数・重複しない個数のようなメジャーも増えました。
メジャーやディメンションが増えると、新しい気づき・発見の可能性が高まります。
誕生日から「年齢」「年代」「65歳以上かどうか」のようなディメンションを作成することで「分析の切り口」「分析の軸」「分析視点」が多様化するからです。
チャートや表が増加する
メジャー30種類、ディメンション30フィールドのデータからチャートを作成しようと思います。1チャートあたり、1メジャー・1ディメンションに設定すると
30×30 = 900通りのチャートになる。
プリントアウトして見る、エクセルのシートを繰って見るようなことは不可能に近くなります。
多くのメジャー・ディメンションを組み合わせて見える化できるのがエクセルではピボット+スライサーです。タブローのようなBIツールを活用する方法もあります。
メジャーやディメンションが増えると、新しい気づき・発見の可能性が高まります。そして、より多くの人が分析にかかわることでも、新しい気づき・発見の可能性が高まります。