« ウィリアム・トレヴァー「聖母の贈り物」国書刊行会 栩木伸明訳 | トップページ | ココログ:各月のURL一覧から全公開記事をダウンロードするVBScript »

2018年11月 9日 (金)

ココログ:外れている内部リンクを探す

 今年の初めにカテゴリ別書評一覧を作り替えた。ハッキリ言って、やらない方がよかった。

 理由は幾つかあるが、その一つは、既存の記事の URL が変わってしまった事だ。おかげで、このブログの別の記事に張ったリンクの幾つかが切れて、404 not Found になってしまう。これは困る。

 という事で、外れている内部リンクを探すプログラムを VBScript で書く。いろいろと欠陥はあるが、とりあえずの役には立った。ちなみにリンクを張りなおすのは手作業で行った。

【やる事】

 ココログの私の全公開記事から、外れている内部リンクを探し、タブ区切りテキストで書き出す。可能なら、切れたリンクの新しい URL も調べる。

【だいたいの流れ】

  1. 手作業:「バックナンバー」の頁から、各月のアーカイブの URL 一覧を作る
     →ファイル arc.txt
  2. VBScript crowl.vbs:各月のアーカイブの URL 一覧 arc.txt を読み、全公開記事の HTML をダウンロードする
     →ファイル res.html
  3. VBScript makeURLList.vbs:全記事の HTML res.html から、公開記事の URL 一覧を作る。
     →ファイル URLlist.txt
  4. VBScript merge.vbs:公開記事の URL 一覧 URLList.html と全公開記事の HTML res.html を突き合わせ、リンク切れの一覧を作る。
     →ファイル LostLinkList.txt
  5. VBScript makeOldList.vbs:幸いにして古い「カテゴリ別書評一覧」も残っていた。これから各記事の旧URL 一覧を作る。
     →ファイル oldCtindex.txt
  6. OpenOffice Calc:リンク切れ一覧 LostLinkList.txt と 旧URL 一覧 oldCtindex.txt と公開記事URL一覧 URLlist.txt を突き合わせ、記事URL:リンク切れURL:新URL の一覧を作る
  7. 手作業:上の一覧を使い、ココログの記事編集機能で外れたリンクを繕う。

【おわりに】

 「もしかして VBScript って HTTP も使えるんじゃね?」と思って調べたら可能だったので、やってみたかっただけなんです、はい。でも今は PowerShell ってのがj流行ってるらしいんで、次はこっちにしようかなあ。

 そんなわけで、これから時おり、書いたプログラムなどを公開していきます。

【関連記事】

|

« ウィリアム・トレヴァー「聖母の贈り物」国書刊行会 栩木伸明訳 | トップページ | ココログ:各月のURL一覧から全公開記事をダウンロードするVBScript »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: ココログ:外れている内部リンクを探す:

« ウィリアム・トレヴァー「聖母の贈り物」国書刊行会 栩木伸明訳 | トップページ | ココログ:各月のURL一覧から全公開記事をダウンロードするVBScript »