ココログ:外れている内部リンクを探す
今年の初めにカテゴリ別書評一覧を作り替えた。ハッキリ言って、やらない方がよかった。
理由は幾つかあるが、その一つは、既存の記事の URL が変わってしまった事だ。おかげで、このブログの別の記事に張ったリンクの幾つかが切れて、404 not Found になってしまう。これは困る。
という事で、外れている内部リンクを探すプログラムを VBScript で書く。いろいろと欠陥はあるが、とりあえずの役には立った。ちなみにリンクを張りなおすのは手作業で行った。
【やる事】
ココログの私の全公開記事から、外れている内部リンクを探し、タブ区切りテキストで書き出す。可能なら、切れたリンクの新しい URL も調べる。
【だいたいの流れ】
- 手作業:「バックナンバー」の頁から、各月のアーカイブの URL 一覧を作る
→ファイル arc.txt - VBScript crowl.vbs:各月のアーカイブの URL 一覧 arc.txt を読み、全公開記事の HTML をダウンロードする
→ファイル res.html - VBScript makeURLList.vbs:全記事の HTML res.html から、公開記事の URL 一覧を作る。
→ファイル URLlist.txt - VBScript merge.vbs:公開記事の URL 一覧 URLList.html と全公開記事の HTML res.html を突き合わせ、リンク切れの一覧を作る。
→ファイル LostLinkList.txt - VBScript makeOldList.vbs:幸いにして古い「カテゴリ別書評一覧」も残っていた。これから各記事の旧URL 一覧を作る。
→ファイル oldCtindex.txt - OpenOffice Calc:リンク切れ一覧 LostLinkList.txt と 旧URL 一覧 oldCtindex.txt と公開記事URL一覧 URLlist.txt を突き合わせ、記事URL:リンク切れURL:新URL の一覧を作る
- 手作業:上の一覧を使い、ココログの記事編集機能で外れたリンクを繕う。
【おわりに】
「もしかして VBScript って HTTP も使えるんじゃね?」と思って調べたら可能だったので、やってみたかっただけなんです、はい。でも今は PowerShell ってのがj流行ってるらしいんで、次はこっちにしようかなあ。
そんなわけで、これから時おり、書いたプログラムなどを公開していきます。
【関連記事】
| 固定リンク
「パソコン・インターネット」カテゴリの記事
- サミュエル・ウーリー「操作される現実 VR・合成音声・ディープフェイクが生む虚構のプロパガンダ」白揚社 小林啓倫訳(2021.07.11)
- ココログ:記事編集で余分な改行が入る→初期設定を通常エディタにする(2019.10.10)
- Q.Ethan McCallum「バッドデータ ハンドブック データにまつわる問題への19の処方箋」オライリージャパン 磯蘭水監訳 笹井崇司訳(2019.06.07)
- ココログ:リンク切れ一覧と旧URL一覧と公開記事URL一覧を突き合わせるOpenOfficeCalc(2018.11.18)
- ココログ:古い「カテゴリ別書評一覧」から各記事の旧URL 一覧を作るVBScript(2018.11.15)
コメント