前回の記事ではKH Coderを使用して、当ブログ全記事の頻出名詞を抜き出しました。
上位10件程度なら、カテゴリやタグとしてそこそこ使えそうなものが並んでいます。
抽出語 | 品詞 | 出現回数 |
---|---|---|
人 | 名詞C | 761 |
自分 | 名詞 | 345 |
プロジェクト | 名詞 | 342 |
会社 | 名詞 | 288 |
システム | 名詞 | 278 |
ソフトウェア | 名詞 | 272 |
データ | 名詞 | 263 |
技術 | 名詞 | 249 |
プログラマー | 名詞 | 246 |
情報 | 名詞 | 242 |
今回は各記事個別に頻出名詞を見ていきます。
※全体を読みたい方はこちらへどうぞ。
1つずつKH Coderにかけていくのはさすがにしんどいので、
今回はMeCabを使用して実装しました。ご興味のある方はこちらからどうぞ。
かなりやっつけ作業なので見ても参考にはならないと思いますが。
GitHub – zeikomi552/BlogOrganizer
画面のイメージはこんな感じです。
タイトル「ご挨拶」の頻出名詞は「会社」のようです。
タイトル「プログラマー35歳定年説について思う事」の頻出名詞は「技術」というのはしっくりこない。
「プロジェクト崩壊の6段階説」も「プロジェクト」とそれなりの結果になっています。
「テキサススパイスとサンタフェステーキスパイス」は「スパイス」で中々良いですね。
僕のさじ加減ですが使えそうなものを3段階にして分けていこうと思います。
評価 | 評価基準 |
---|---|
〇 | これこれ。まさにこれだよ。カテゴリとして採用。 |
△ | まぁ、わからなくはない。タグとしてなら使える。 |
× | あっちょんぶりけ。 |
ここはさすがに手作業か・・・。
分類結果
全記事数 278(内、空っぽの記事が2 → 不明に分類)
評価 | 記事数 | 割合 |
---|---|---|
〇 | 96 | 35% |
△ | 125 | 45% |
× | 53 | 19% |
不明 | 2 | 1% |
グラフ化すると以下になります。
約80%が〇か△に分類することができました。
カテゴリで使用できそうなものはタグとして使用しても問題ありません。
タグの分類としては頻出名詞だけで8割程度の確率で使えそうです。
一方、カテゴリの分類に使用するのは35%と難しいように感じます。
何等かの工夫が必要ですね。
また、明確な基準がないため、カテゴリ?タグ?の評価が途中ブレブレなのも事実です。
まぁ、×は意味不明なのでさほどブレてないと思いますが。
次回、カテゴリに使えそうな割合を増やすため
もう一工夫入れてみようと思います。
おわり
コメントを残す