前回の記事では約8割の確率でタグに使えそうということがわかりました。
しかしながら、カテゴリとして使おうと思うと約3.5割。
今回はカテゴリの層別をやっていきます。
※全体を読みたい方はこちらへどうぞ。
少し、カテゴリとタグについて僕の理解を共有しておきます。
僕のざっくり理解は以下の通りです。
- カテゴリ = 親子関係を持てる、1個が理想
- タグ = 親子関係を持てない、たくさんつけても良い
このページはSEO対策のページではないので、
SEO関連で迷い込んだ方は正確なページに行ってください。
ブログ記事の整理プロジェクト – テキストマイニング(KH Coder)
では、全記事から抜き出した頻出名詞からブログの要約をつくりました。
カテゴリの層別は頻出名詞を使うことで実現可能であると考えています。
カテゴリ | タグ |
---|---|
全記事の頻出名詞 | 各記事の頻出名詞 |
で、出来上がったのはこんな感じのアプリです。
頻出単語TOP10
全記事TOP10の頻出単語を抜き出していくと以下の通りです。
明らかにタグとして使えないquotを取り除いています。
人 | 751 |
---|---|
自分 | 345 |
プロジェクト | 339 |
会社 | 288 |
ソフトウェア | 271 |
データ | 258 |
システム | 253 |
技術 | 249 |
プログラマー | 246 |
情報 | 242 |
僕の記事は上位10名詞が全記事278中245記事(88%)に登場するようです。
つまり、同じことしか言っていないということですね。複雑な気分。
同じ要領で上位20名詞を抜き出します。
全記事278中272記事(97%)に登場するようです。
カテゴリセットできていないものは以下の内容です。
確かにこのブログでは異色のものです。
- 自動下書き×3 (空っぽの記事)
- しばらくお休み(※記事削除しました)
- テキサススパイスとサンタフェステーキスパイス
僕のブログは全記事の頻出名詞TOP20で言い表せます。
まとめ
ちょっと長くなってきたので今回はここまでにしておきます。
TOP20を列挙しておきます。
カテゴリ | カウント |
---|---|
人 | 751 |
自分 | 345 |
プロジェクト | 339 |
会社 | 288 |
ソフトウェア | 271 |
データ | 258 |
システム | 253 |
技術 | 249 |
プログラマー | 246 |
情報 | 242 |
企業 | 222 |
ファイル | 217 |
画面 | 197 |
ユーザー | 196 |
記事 | 195 |
bitnami | 162 |
感じ | 161 |
サーバー | 153 |
業務 | 145 |
内容 | 130 |
僕の記事を言い表すことは全記事の名詞ランキングから出せますが、
カテゴリにしたところで「これって興味ある?」って内容です。
ユーザービリティが上がらないと意味がないので、
まだまだ工夫が必要ですね。
カテゴリむっず!!
ブログ記事の整理プロジェクト – カテゴリ分類の考察
おわり
コメントを残す