データマイニング手法【3訂版】〈探索的知識発見編〉
―営業、マーケティング、CRMのための顧客分析―
実務と手法をつないだベストセラー、待望の3訂版を2分冊で発行。ビッグデータへすぐに応用できるようケーススタディで解説。本編では、パターン発見とキャンペーンのシミュレーション/クラスタ自動生成とエリアのセグメント分け/GMMと自己組織化マップ/バスケット分析とシーケンシャルパターン/リンク分析とソーシャルネットワーク/テキストマイニングと特異値分解を解説。
書籍データ
発行年月 | 2014年3月 |
判型 | A5 |
ページ数 | 320ページ |
定価 | 3,080円(税込) |
ISBNコード | 978-4-303-73428-2 |
概要
ビッグデータの時代となった。これまでの業務トランザクションデータに加えて、センシングやGPSなどM2M(マシンtoマシン)データ、SNSやweb上のソーシャルデータなど、どの組織においてもデータの増大とそれへの対処が喫緊の課題となっている。
本書は、この領域でのデータ利活用についての著名なコンサルタントであり20年近く前からデータマイニングを実践している著者による、数式なしでの事例と図解による、ユーザのためのきわめて優れた手法紹介・解説である。本書では、最新の手法と応用事例によってほぼ全面的に改訂された『Data Mining Techniques(Third Edition)』からデータマイニング手法に関する章のみを翻訳している。
データマイニングは、ビジネス課題解決のために行われる。したがってデータの選択やデータクリーニングから変数変換、手法選択、報告まで、その目的に照らして適切に行われなければならない。原著のChapter 1を開いただけでも、適切なデータ量、履歴期間、変数選択、データ抽出方法、欠損値の扱いなどについて、ビジネス課題のためのモデル構築の視点から具体的に触れていることがわかる。データサイエンティストは、まずビジネスサイエンティストでもなければならないのである。たとえば、判別問題の要因となる変数を探すときに、平均値の周辺を除いて両端のデータだけを使ったCARTから変数選択する、というような実務から生まれたたくさんのノウハウと手法に満ちているのが本書である。
データマイニングにはビジネス上の目的がある。購買金額、顧客維持、解約行動、類似顧客からのリコメンデーションなどビジネス上の成果変数が明らかであり、それを向上させるためにモデルを利用することについては〈予測・スコアリング編〉で扱っている。ビッグデータから顧客をセグメント分けして、より効率的・効果的なCRMを行いたいというような課題については、〈探索的知識発見編〉で扱っている自動クラスタリングやバスケット分析、リンク分析、テキストマイニングなどが役立つであろう。
このようにデータマイニング実務経験から生み出された本書は、実務の関係者にとって貴重なものであることが第一の特徴である。第二に、事例のポイントを的確に伝えるために翻訳者もすべてデータマイニング実務経験のある者としたことも特徴かもしれない。第三に、この数年で普及してきたサポートベクターマシン、協調フィルタリング、生存時間分析、テキストマイニング、ナイーブベイズなどの新たな手法についても触れられている点があげられる。
著者は最も経験のあるデータマイニングコンサルタントである。本書を手に取ることによってそのコンサルティング経験を追体験することからあなたのデータマイニングをスタートしてほしい。ビッグデータではほとんどの差異は統計的に有意となるので、データの海に溺れないためには本書のような確かな指針が必要と思われる。そして、データサイエンスを学ぶ学生にも、実務視点で学習分野を見直す機会となる良い参考書となると思われる。(「訳者まえがき」より)
目次
[CHAPTER 1]何か新しいことを教えて:パターン発見とデータマイニング
1.1 探索的手法、探索的データマイニング
1.2 探索的データマイニングとは何か
1.3 探索的データマイニングの方法論
1.4 得られた教訓
[CHAPTER 2]同じような島を探し出す:クラスタの自動探索
2.1 同じような島を探す
2.2 顧客セグメンテーションとクラスタリング
2.3 K-meansクラスタ作成法のアルゴリズム
2.4 クラスタを解釈する
2.5 クラスタを評価する
2.6 ケーススタディ:都市をクラスタリングする
2.7 K-means法のバリエーション
2.8 クラスタリングのためのデータ整備
2.9 得られた教訓
[CHAPTER 3]その他のクラスタリング手法
3.1 K-means法の欠点
3.2 混合正規分布モデル
3.3 分枝型クラスタリング
3.4 凝集型クラスタリング
3.5 自己組織化マップ
3.6 より納得感のあるクラスタ分割を求めて
3.7 得られた教訓
[CHAPTER 4]マーケットバスケット分析とアソシエーションルール
4.1 マーケットバスケット分析の特徴
4.2 ケーススタディ:スペイン語か英語か
4.3 アソシエーション分析
4.4 アソシエーションルールを構築する
4.5 アイデアを拡張する
4.6 アソシエーションルールとクロスセル
4.7 時系列パターン分析
4.8 得られた教訓
[CHAPTER 5]リンク分析
5.1 グラフ理論の基礎
5.2 ソーシャルネットワークの分析
5.3 通話のグラフを調べる
5.4 ケーススタディ:集団のリーダーを追跡する
5.5 ケーススタディ:家庭でFAXを使う人たち
5.6 Googleはどのようにして世界を支配するに至ったか
5.7 得られた教訓
[CHAPTER 6]顧客の声に注意深く耳を傾けよう:テキストマイニング
6.1 テキストマイニングとは何か
6.2 テキストデータを処理する
6.3 ケーススタディ:非定形なテキストマイニング
6.4 MBR(記憶ベース推論)を用いてニュース記事を分類する
6.5 テキストから数へ
6.6 テキストマイニングとナイーブベイズモデル
6.7 DIRECTV社:顧客サービス部門におけるケーススタディ
6.8 得られた教訓
プロフィール
訳者(五十音順)
上野 勉(株式会社ジーリサーチ 代表取締役、神奈川大学大学院 非常勤講師)
江原 淳(専修大学ネットワーク情報学部 教授)
大野 知英(ウェッジソフトウェア合同会社 代表)
小川 祐樹(株式会社ジーリサーチ)
斉藤 史朗(株式会社金融エンジニアリング・グループ 主任コンサルタント)
佐藤 栄作(千葉大学人文社会科学研究科 教授)
谷岡 日出男(データマインテック株式会社 代表取締役)
原田 慧(株式会社金融エンジニアリング・グループ コンサルタント)
藤本 浩司(テンソル・コンサルティング株式会社 代表取締役社長、東京農工大学工学研究院 客員教授)