ブログ記事の整理プロジェクト – 各記事の頻出名詞の取得(C# + MeCab)

前回の記事ではKH Coderを使用して、当ブログ全記事の頻出名詞を抜き出しました。
上位10件程度なら、カテゴリやタグとしてそこそこ使えそうなものが並んでいます。

抽出語 品詞 出現回数
名詞C 761
自分 名詞 345
プロジェクト 名詞 342
会社 名詞 288
システム 名詞 278
ソフトウェア 名詞 272
データ 名詞 263
技術 名詞 249
プログラマー 名詞 246
情報 名詞 242

今回は各記事個別に頻出名詞を見ていきます。

※全体を読みたい方はこちらへどうぞ。


1つずつKH Coderにかけていくのはさすがにしんどいので、
今回はMeCabを使用して実装しました。ご興味のある方はこちらからどうぞ。
かなりやっつけ作業なので見ても参考にはならないと思いますが。

GitHub – zeikomi552/BlogOrganizer

画面のイメージはこんな感じです。

タイトル「ご挨拶」の頻出名詞は「会社」のようです。
タイトル「プログラマー35歳定年説について思う事」の頻出名詞は「技術」というのはしっくりこない。
「プロジェクト崩壊の6段階説」も「プロジェクト」とそれなりの結果になっています。
「テキサススパイスとサンタフェステーキスパイス」は「スパイス」で中々良いですね。

僕のさじ加減ですが使えそうなものを3段階にして分けていこうと思います。

評価 評価基準
これこれ。まさにこれだよ。カテゴリとして採用。
まぁ、わからなくはない。タグとしてなら使える。
× あっちょんぶりけ。

ここはさすがに手作業か・・・。


分類結果
全記事数 278(内、空っぽの記事が2 → 不明に分類)

評価 記事数 割合
96 35%
125 45%
× 53 19%
不明 2 1%

グラフ化すると以下になります。

約80%が〇か△に分類することができました。

カテゴリで使用できそうなものはタグとして使用しても問題ありません。
タグの分類としては頻出名詞だけで8割程度の確率で使えそうです。

一方、カテゴリの分類に使用するのは35%と難しいように感じます。
何等かの工夫が必要ですね。

また、明確な基準がないため、カテゴリ?タグ?の評価が途中ブレブレなのも事実です。
まぁ、×は意味不明なのでさほどブレてないと思いますが。


次回、カテゴリに使えそうな割合を増やすため
もう一工夫入れてみようと思います。

おわり

PR

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です