データ分析における代表的な手法とは?!
データ分析には分析するための手法がたくさんあります。
たくさんある中のすべてを使いこなせればそれで良いのですが、すべて挙げるときりがないので、その中でも代表的なものを紹介していこうと思います。
クロス集計分析
最も基本的なデータ分析手法がクロス集計分析です。
Excelに標準搭載されている機能なので、分析経験がない人でも比較的簡単に扱えます。
市場調査や世論調査などのアンケートでは一般的な手法で、表やグラフで視覚的に表現でき、傾向と特徴が容易に掴みやすいことから多用されている分析方法です。
調査で集められたデータは、必ず集計を行い分析しなければなりません。
集計には単純集計とクロス集計があります。
単純集計は、アンケート回答の選択肢ごとの実数や比率が示されます。例えば選択肢に商品A、B、Cがある場合で総回答数1000だとします。
このとき、Aが600で60%、Bが300で30%、Cが100で10%、以上が単純集計の実数と比率になります。
しかし、これでは全体に占める割合は理解できても、商品ごとに選択をしている人の状況を把握することはできません。
男女別、年齢別、収入別、職業別などの基本属性ごとの集計を知ることは重要です。
こうした分析を行うための集計が、クロス集計と呼ばれるものです。
集計に最もよく使われるのがExcelです。
行と列にそれぞれカテゴリーや数量を割り当て記入していきます。
このケースでは、クロス集計の方法として一番便利なものがピボットテーブルで、分析したい行と列を選択するとクロス集計の表が簡単に出来上がります。
組合せを自在に選択することで、多種多様な分析が可能になります。
視覚化するために棒グラフや円グラフも作れますし、必要とあれば性別・年齢別と数量といった三重クロス集計も可能で、3次元立体グラフも描画できます。
現在ではマーケティングにおける戦略を立てるための基礎資料が必要で、その一つがクロス集計分析になっています。
商品やサービスを販売する際に、どの年齢層にどの商品の購入が多いのか、地域や季節によって売れ行きが異なるのかなどを分析することで、商品の仕入れや在庫数の確保、限定商品や特価セールなどにも活かせます。
ロジスティック回帰分析
ロジスティック回帰分析とは、さまざまな要因から、ある事象が発生する確率を予測する式を作ることです。
回帰分析には重回帰分析というものもありますが、違いは予測したい値の種類です。
・重回帰 :目的変数が連続値
・ロジスティック回帰 :目的変数が二値
二値とは、2つの値しかとらない値のことです。
二値データの例
・患者が病気を発症する/しない
・顧客がローンを返済できる/できない
ロジスティック回帰分析は、ある事象が発生する確率を予測したいときに向いている分析手法です。
ロジスティック回帰分析で予測する確率の例
・患者が病気を発症する確率
・顧客がローンを返済できる確率
事象の発生確率を予測することは、事象が「発生する」/「発生しない」の分類問題を解くことと同じです。
アソシエーション分析
アソシエーション分析とは、マーケティングで利用される代表的なデータ分析手法です。
顧客が商品を購入する際の購入パターンや売買履歴を分析することで、ある商品Aと商品Bの売れ行きについて、その関連性を抽出します。
アソシエーション分析を活用すれば、商品Aが売れるときは、商品Bが一緒に売れるケースが多いなどのルールを見つけ出すことが可能となります。
独立したいくつかの指標の組み合わせを基にして、ルールを見つけ出すので評価を行うことが容易になる手法です。
決定木分析
決定木とは木構造を用いて分類や回帰を行う機械学習の手法です。
分類木と回帰木を総称して決定木といいます。
まず、分類木の説明です。
例えば、日々の温度と湿度のデータ、その日Aさんが暑いと感じたか暑くないと感じたかかのデータが与えられた状況を考えます。
例えば温度が27度で湿度が40%の日は暑くないと感じたとします。
このデータから「温度と湿度がどのようなときにどう感じるのか?」といったことを木で表現できます。
この木のことを分類木といいます。
この木がどのような図をしているのか、実際に調べてみてください。
続いて、回帰木です。
例えば日々の温度と湿度のデータ、その日Aさんが飲んだ水の量のデータが与えらえれた状況を考えます。
例えば温度が27度で湿度が40%の日は水を1.5L飲んだとします。
分類木のときと同様にこのデータから「温度と湿度がどのようなときに水を何L飲むか?」といったことを木で表現できます。
この木のことを回帰木といいます。
分類木と回帰木は似ています。
分類木と回帰木のことを合わせて決定木と言います。
やりたいことが分類(分類モデルの作成)のときは、分類木を使い、やりたいことが数値の予測(回帰モデルの作成)なら回帰木を使います。
クラスター分析
クラスター分析は、大きな集団の中から、似たもの同士を集めてグループに分ける統計的な分析手法です。
性別や年齢層別、在住地域別など、始めからはっきり分類基準がわかっている集団に分けるのはクラスター分析とは呼べません。
クラスター分析の場合は性別などの外的基準がはっきりしていないデータを分類する場合に用いる場合が多いです。
クラスター分析では、生活者の購買データやアンケート調査などから、生活者や商品をクラスター分けします。
そのため、会員登録時に記入もしくは入力するような属性情報による分類とはまた違った分類が可能です。
たとえば、マーケティングの現場では次のような分析に利用されています。
・顧客層の特性分け分析
・店舗の取り扱い商品構成の分析
・商圏の特性分析
・ブランドのポジショニング分析
クラスター分析は、それぞれのデータ同士が「似ているか」、または「似ていないか」を基準に分類しています。
統計的には、相関係数などによって類似度を計算したり、2点間の直線距離などによって非類似度を計算したりといった作業を重ねて分析が行われます。
計算は数字で表現する論理的なものですが、「似ている」「似ていない」というのは感覚的な部分があります。
そのため、これまで多くの研究者によって異なった考え方や分析のアルゴリズムが提唱されてきました。
それらは現在でも一本化されておらず、多くのバリエーションが存在し、「さまざまなクラスター分析の結果をクラスター分析するべき」とまで言われる状況です。
以上が代表的な5つの手法でした。
更に詳しく知りたい方は、個別に調べてみてください。