ブログ記事の整理プロジェクト – カテゴリ分類の考察

ブログ記事の整理プロジェクト続編です。
最初から読みたい変わり者はコチラへどうぞ → ブログ記事の整理プロジェクト

前回の記事では約8割の確率でタグに使えそうということがわかりました。
しかしながら、カテゴリとして使おうと思うと約3.5割。
今回はカテゴリの層別をやっていきます。


少し、カテゴリとタグについて僕の理解を共有しておきます。
僕のざっくり理解は以下の通りです。

  • カテゴリ = 親子関係を持てる、1個が理想
  • タグ = 親子関係を持てない、たくさんつけても良い

このページはSEO対策のページではないので、
SEO関連で迷い込んだ方は正確なページに行ってください。

ブログ記事の整理プロジェクト – テキストマイニング(KH Coder)
では、全記事から抜き出した頻出名詞からブログの要約をつくりました。
カテゴリの層別は頻出名詞を使うことで実現可能であると考えています。

カテゴリ タグ
全記事の頻出名詞 各記事の頻出名詞

で、出来上がったのはこんな感じのアプリです。


全記事TOP10の頻出単語を抜き出していくと以下の通りです。
明らかにタグとして使えないquotを取り除いています。

751
自分 345
プロジェクト 339
会社 288
ソフトウェア 271
データ 258
システム 253
技術 249
プログラマー 246
情報 242

僕の記事は上位10名詞が全記事278中245記事(88%)に登場するようです。
つまり、同じことしか言っていないということですね。複雑な気分。

同じ要領で上位20名詞を抜き出します。
全記事278中272記事(97%)に登場するようです。

カテゴリセットできていないものは以下の内容です。
確かにこのブログでは異色のものです。

僕のブログは全記事の頻出名詞TOP20で言い表せます。


ちょっと長くなってきたので今回はここまでにしておきます。
TOP20を列挙しておきます。

カテゴリ カウント
751
自分 345
プロジェクト 339
会社 288
ソフトウェア 271
データ 258
システム 253
技術 249
プログラマー 246
情報 242
企業 222
ファイル 217
画面 197
ユーザー 196
記事 195
bitnami 162
感じ 161
サーバー 153
業務 145
内容 130

僕の記事を言い表すことは全記事の名詞ランキングから出せますが、
カテゴリにしたところで「これって興味ある?」って内容です。
ユーザービリティが上がらないと意味がないので、
まだまだ工夫が必要ですね。

カテゴリむっず!!

ブログ記事の整理プロジェクト – カテゴリ分類の考察

おわり

コメントする

メールアドレスが公開されることはありません。