ブログ記事の整理プロジェクト – 総括

本プロジェクトの目的は「プログラマーやめました」の全記事に対し
明確なカテゴリとタグをつけることでした。
今回は全体を振り返ってみることにします。
想像していた以上に面白い結果が得られたので、
案外色んなところで応用が利くのではないかと考えています。

本プロジェクトの目的

目的

  • 説明しなくてもこのブログがどういうものなのかがわかるブログ構成を実現する

課題設定

  • 全ての記事が内容のわかるメジャーなタグ・カテゴリに分類されていること。
  • トップ画面から3アクション以内に目的のページにたどり着けること。

当初は僕自身のズボラな性格を悔いブログを整然とさせたい一心で始めました。
しかし今は、カテゴリ分けやタグ付けの品質を一定にできないという
万人に共通の悩みがあるのではないかと考えています。

つまり今回のプロジェクトの真の課題は

  • カテゴリやタグ付けを一定品質に保つ
    ではないかと考えています。

本手順はカテゴリ分けやタグ付けを機械的に実施することで
感覚的な要素を排除し一定品質を保つことを実現しています。

概要

今回やったことは以下の通りです。

  • 「プログラマーやめました」全記事の頻出名詞の抽出(以下、カテゴリリスト)
  • 各記毎の頻出名詞の抽出(以下、タグリスト)
  • カテゴリリストからカテゴリとして使用する数を決定 → 全記事97%を包括できるTop20を使用する
  • 各記事にカテゴリリストから1つずつ割り当てる(記事内の出現頻度順)
  • ブログの要約として共起ネットワークを作成
  • カテゴリとして本ブログの大カテゴリである「プログラマー+XX」で設定(XXはカテゴリリストTop20)
  • タグとして各記事のタグリストを使用して設定

頻出名詞の抽出には形態素解析ライブラリMeCab(MeCab.DotNet)を使用しています。
共起ネットワーク作成にはフリーソフトKH Coderを使用しています。

結果

評価はここを見てくださっている方の判断に委ねます。
将来、直帰率等から割り出せないか検証してみます(たぶん)。
見どころをご参考まで。

共起ネットワーク(ブログの要約)

カテゴリとタグ

成果物

ソースコードはこちら

GitHub zeikomi552/BlogOrganizer

実行ファイルはこちら

後日、今回の成果物タグカテくん(正式名:BlogOrganizer)の使い方をご説明します。

総括

カテゴリ分けやタグ付けの品質の良し悪しはありますが、
機械的に実行するため品質のばらつきは一定に保てるのではないかと考えます。
ブログのカテゴリ分け、タグ付け手法の一つとしてご提案いたします。

まとめ

今回の手法でカテゴリ分けとタグ付けを行ったことで
ちゃんとしたブログっぽくなりました。
整理が下手な僕としてはかなり満足度の高い成果でした。

おわり

コメントする

メールアドレスが公開されることはありません。