アンケートの自由回答データ入手できたので、業者にテキストマイニングを依頼。
数社の見積もりを取ったところ、簡易レポートつきで30万~50万くらい。
某電々系SIerに発注したところ、PPTのテンプレートだけがcoolなショボい納品物に眩暈がしたので、オープンソースなテキストマイニングツールを探してみた。
KH Coder
KH Coderとは、内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアです。新聞記事、質問紙調査における自由回答項目、インタビュー記録など、社会調査によって得られる様々な日本語テキスト型データを計量的に分析するために製作されました。
Windows版では、その他の必須ソフトウェア(ChaSen + MySQL + Perl + 各種Perlモジュール)はKH Coderの配布パッケージに同梱されています。また、これらの必須ソフトウェアの設定はKH Coderが自動的に行います。
なんか良さげなので、会社でインストール申請出す前に自宅でテスト。
とりあえずWindows版のバイナリで、このサイトの検索キーワードをマイニングしてみた。
元ネタは、Google Analyticsから。2,664種類のフレーズを.csvで入手。
[起動して]
![113-KHcoder_1st.jpg](http://blog.kenji00.com/assets_c/2009/03/113-KHcoder_1st-thumb-320x320-166.jpg)
[ファイルを読み込んで]
![111-KHcoder_2nd.jpg](http://blog.kenji00.com/assets_c/2009/03/111-KHcoder_2nd-thumb-320x173-168.jpg)
[前処理を実行]
![119-KHcoder_3rd.jpg](http://blog.kenji00.com/assets_c/2009/03/119-KHcoder_3rd-thumb-320x85-170.jpg)
[処理完了]
![123-KHcoder_4th.jpg](http://blog.kenji00.com/assets_c/2009/03/123-KHcoder_4th-thumb-320x320-172.jpg)
すると
[品詞別の出現回数]
![121-demo0.jpg](http://blog.kenji00.com/assets_c/2009/03/121-demo0-thumb-320x235-174.jpg)
[KWIC(keyword in context)]
![125-demo2.jpg](http://blog.kenji00.com/assets_c/2009/03/125-demo2-thumb-320x203-176.jpg)
[連関規則]
![127-demo1.jpg](http://blog.kenji00.com/assets_c/2009/03/127-demo1-thumb-320x453-178.jpg)
といったデータが簡単に解析できます。
その他にも、外部変数として読み込んだデータとのクロス集計やワードの出現回数分布、コロケーション(共起)統計もできちゃう。さらにExcel上で整形・グラフ化するためのマクロ付き。
外注すると30万の納品物があっという間にお手元に。
今回の様に検索キーワード解析だと、CVRの良いワードと相関の高いSEM入札/SEO用ワードを探したり...といった作業も楽に行えると思われ。
Perlのソースも配布されていることですし、コレでwebサービスしたら便利だと思うなぁ。
最近のコメント