ブログ記事の整理プロジェクト – テキストマイニング(KH Coder)

前回の記事でブログの記事を取り出しました。
今回はテキストマイニングです。
前回、形態素解析と言ってしまいましたが、技術単体の話ではないのでテキストマイニングに訂正しておきます。

以下のツールを使っていきます。

KH Coder

様々な研究で使用されており、非常に応用範囲の広い技術だと思います。

そんな素晴らしい技術を公衆便所の落書きのようなページに
あろうことかカテゴリやタグの整理で使用させて頂くという・・・。

では、やっていきます。

※注意:このブログ記事整理プロジェクトは大失敗です。読むのは勝手ですが良い子は真似しないでください。
全体を読みたい方はこちらへどうぞ。


さて早速。定番の抽出語リストから行きます。
一つにまとめた記事のファイルを読み込ませてまずは前処理。
自動でやってくれるので楽です。

抽出語リスト。

何か僕の内面をさらけ出すようでちょっとこわかったのですが
意外と「人・言う・思う・良い」というクリーンな単語が出てきました。
しかし「人」ってそんなに使ってたっけ?

ちょっと細かく見てみます。
あまり「人」という言葉をポジティブに使ってませんね。
「人を用意しろ!」「人は用意できない」「説明できる人・・・いません」

定量的に見てみます。
否定助動詞の「ない」がダントツのスコアを出しています。
僕は「人」に対して否定的な感情を持っているのでしょうか?
あながち否定できない。

ついでに「自分」も見てみます。
同じく否定的な傾向がありますが、スコア自体は「人」の時と比べて大幅に下がります。
どう解釈すれば良いのだろうか。他罰的で他責思考ということ?

「自分」をもう少し詳しく見てみます。全体的に暗い。
「糞尿を垂れ流した時の自分」「自分の退職願い」「別に自分の会社に・・・」「自分を保つ唯一の方法」
もうちょい明るく行きたいなぁ。


当初の目的から外れてしまいました。
興味はありますが、今回の目的は僕の内面を知ることではありません。
ブログ整理にあたりカテゴリとタグを決めたいのです。

名詞だけに絞ってみていきます。

「プロジェクト・会社・システム・ソフトウェア・データ・技術・・・」
結構イイ感じにカテゴリにできそうなのが並びます。
ちゃんとシステム屋のブログっぽい。
「人」が無いのは名詞Cを条件に入れ忘れたからです。名詞C?
しかし気になるのはトップに君臨する「自分」。何それ。

ちょっと見た目がよかったので共起ネットワークも出しておきます。
どう読み取れば良いのかわかりませんが、僕のページの雰囲気を伝えるには良さそうです。

名詞と形容詞と未知語を条件に上位100を表示しています。
未知語も選択しているのはWordpressのようなシステム関係の名詞が未知語に含まれるからです。

とりあえず共起ネットワークの情報を元に僕のページの要約を書いてみます。

Before

IT企業から製造業に転職したおっさんがぼやき続けるページ

After

人を中心にプロジェクト、リーダー、会社ついて考察するサイト。
自分とは?プログラマ―とは?ソフトウェアとは?システムとは?
データや情報を元に良い感じにまとめていきます。
WordPressに関する手順多め。


とりあえず、カテゴリやタグに使えそうな単語は見つかりました。
それっぽい要約文も完成です。

しかし、どの記事にどのカテゴリを振るかが手動だと面倒ですね。

次回、MeCabを使って記事毎の頻出語を出してみます。

おわり


参考:抽出結果のリスト上位30件

抽出語 品詞 出現回数
名詞C 761
自分 名詞 345
プロジェクト 名詞 342
会社 名詞 288
システム 名詞 278
ソフトウェア 名詞 272
データ 名詞 263
技術 名詞 249
プログラマー 名詞 246
情報 名詞 242
企業 名詞 222
ファイル 名詞 218
ユーザー 名詞 196
画面 名詞 196
名詞C 196
記事 名詞 195
WordPress 未知語 193
感じ 名詞 162
IT 未知語 153
サーバー 名詞 153
業務 名詞 145
内容 名詞 130
言葉 名詞 122
リーダー 名詞 120
手順 名詞 120
まとめ 名詞B 118
お金 名詞 114
ツール 名詞 113
方法 名詞 113
DX タグ 109

PR

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です