ブログ記事の整理プロジェクト – ブログ記事の取り出し方方針

ブログ記事の整理プロジェクト続編です。
最初から読みたい変わり者はコチラへどうぞ → ブログ記事の整理プロジェクト

今回はブログの記事を取り出す方針を考えてみようと思います。

パッと思いつく方法としては以下の4種類。

  1. WordPressのREST APIで記事を取得する
  2. WordPressのデータベースから直接クエリで取り出す
  3. バックアップファイルから取り出す
  4. Webページに直接アクセスしてリンクを順に辿っていき記事のHTMLを取り出す

どれも中々面倒くさそうです。
1.はAPIを調べるのが面倒くさい。
2.はいちいち外向けにMySQLを解放しないといけないので面倒くさい
3.はクエリのバックアップなので取り除かないといけない文字がいっぱいありそうで面倒くさい
4.は何かちょっとコンプライアンス的によろしくない気がする

今回は折角バックアップとったので活用することにします。
普段は何もないとそのまま破棄されちゃいますしね。
今回はちゃんと使ってあげます。

というわけで3を採用。