タグカテくんの使い方 – ブログのタグとカテゴリの付け方案

ブログの雑然としたタグやカテゴリを何とかしたい。
そう感じたらタグカテくん。

SEOとか全く考えてませんが適当につけるよりはマシなのではないでしょうか?

タグとかカテゴリって最初は頑張るのですが、
面倒くさくなって全部同じものを付けるようになってしまいます。
僕のサイトの大半が「ぼやき」カテゴリー「ぼやき」タグがついてました。
効果がイマイチ見えない作業って続かないんですよね。
頭を使わずに、、もとい、機械的にカテゴリー分けとタグ付けをやりたいがコンセプトです。

では、ツール「タグカテくん」のご紹介。
「機械的にタグとカテゴリーを付ける方法」編です。

ブログ記事の整理プロジェクト – カテゴリの決定

ブログ記事の整理プロジェクト続編です。
最初から読みたい変わり者はコチラへどうぞ → ブログ記事の整理プロジェクト

カテゴリを決定するのが割と難関です。

ブログ全体の要約文を作るには全記事の頻出名詞を抜き出せば良さそうです。
各記事の要約文は各記事の頻出名詞で良さそうです。

しかし、カテゴリ・・・。
各記事の頻出名詞では具体的過ぎて278記事なのに256個のカテゴリが必要になってしまいます。
タグとしては良いのです。ただカテゴリとしては役不足です。
一方ブログ全体の頻出名詞を当て込むと抽象的すぎて70%の記事が「人」です。

もう少し掘り下げて考えていきます。

ブログ記事の整理プロジェクト – カテゴリ分類の考察

ブログ記事の整理プロジェクト続編です。
最初から読みたい変わり者はコチラへどうぞ → ブログ記事の整理プロジェクト

前回の記事では約8割の確率でタグに使えそうということがわかりました。
しかしながら、カテゴリとして使おうと思うと約3.5割。
今回はカテゴリの層別をやっていきます。

ブログ記事の整理プロジェクト – 各記事の頻出名詞の取得(C# + MeCab)

ブログ記事の整理プロジェクト続編です。
最初から読みたい変わり者はコチラへどうぞ → ブログ記事の整理プロジェクト

前回の記事ではKH Coderを使用して、当ブログ全記事の頻出名詞を抜き出しました。
上位10件程度なら、カテゴリやタグとしてそこそこ使えそうなものが並んでいます。

抽出語 品詞 出現回数
名詞C 761
自分 名詞 345
プロジェクト 名詞 342
会社 名詞 288
システム 名詞 278
ソフトウェア 名詞 272
データ 名詞 263
技術 名詞 249
プログラマー 名詞 246
情報 名詞 242

今回は各記事個別に頻出名詞を見ていきます。

ブログ記事の整理プロジェクト – テキストマイニング(KH Coder)

ブログ記事の整理プロジェクト続編です。
最初から読みたい変わり者はコチラへどうぞ → ブログ記事の整理プロジェクト

前回までの記事でブログの記事を取り出しました。
今回はテキストマイニングです。
前回、形態素解析と言ってしまいましたが、技術単体の話ではないのでテキストマイニングに訂正しておきます。

以下のツールを使っていきます。

KH Coder

様々な研究で使用されており、非常に応用範囲の広い技術だと思います。

そんな素晴らしい技術を公衆便所の落書きのようなページに
あろうことかカテゴリやタグの整理で使用させて頂くという・・・。

では、やっていきます。