« 大森望・日下三蔵編「年刊日本SF傑作選2013 さよならの儀式」創元SF文庫 | トップページ | ローレンス・レッシグ「REMIX ハイブリッド経済で栄える文化と商業のあり方」翔泳社 山形浩生訳 »

2018年11月18日 (日)

ココログ:リンク切れ一覧と旧URL一覧と公開記事URL一覧を突き合わせるOpenOfficeCalc

ココログ:外れている内部リンクを探す のお仕事。ココログ:古い「カテゴリ別書評一覧」から各記事の旧URL 一覧を作るVBScript から続く。

【はじめに】

 今までの作業で、次の3つの一覧=表ができた。

  1. 記事ごとのリンク外れの表。カラムは4つ。
    記事URL:記事名:外れている=古いURL(:そのアンカーテキスト)
  2. 正しいURLと記事名の表。カラムは2つ。
    正しいURL:記事名
  3. 古いURLと記事名の表。カラムは2つ。
    古いURL:記事名

 ここでは、上の3つを組み合わせ、次の6カラムの表を作る。

  • 記事URL:記事名:古い記事URL:古い記事名:正しい記事名:正しいURL

【理屈】

 と書くと何やら大変そうだが、なんの事はない。皆さんご存知、表計算のVLOOKUP関数を使うだけだ。世間では Excel が有名だが、私の手元にあるのは OpenOffice である。たぶん使い勝手は Excel とたいして違わないだろう。いや実は Excel も OPenOffice もよく知らないんだけど。

 理屈はこうだ。

  1. 「記事ごとのリンク外れの表」の古いURLと、「古いURLと記事名の表」の古いURLを突き合わせ、「古いURLに該当する記事名」を得る。
  2. 「古いURLに該当する記事名」と「正しいURLと記事名の表」を突き合わせ、「正しいURL」を得る。

 日頃から関係(リレーショナル)データベースを扱っている人なら、既に頭の中で SELECT 文が出来上がっているだろう。つまりは、そういう処理です。

【手順】

1.OpenOffice Calc を立ち上げる。

2.「古いURLと記事名の表」を読み込む。こんな感じの表になる。

3.同じシートの別の列に、「正しいURLと記事名の表」をコピー&ペーストする。
  貼り付けたら、記事名の列とURLの列を入れ替える。

4.別のシートに、「記事ごとのリンク外れの表」を読み込む。

5.古いURLから記事名を探す。このシートのE列に、VLOOKUP 関数を入れる。

=VLOOKUP(C1;Sheet2.A$1:B$1372;2)

 Sheet2(手順の2.で読んだ表) のA列から セル C1 と同じ行を探し、見つかったらその行のB列を返せ、そんな命令だ。

 日本語に訳すと、こんな感じかな?

「古いURLと記事名の表」から、この表のC列=古いURLと同じものを探し、見つかったら(古いURLに該当する)記事名を返せ。

 結果、こんな風になる。幾つかは記事名が見つかったようだ。

6.記事名から正しいURLを探す。このシートのF列に、VLOOKUP 関数を入れる。

=VLOOKUP(E1;Sheet2.E$1:F$1633;2)

 Sheet2(手順の3.で読んだ表) のE列から (この表の)セル E1 と同じ行を探し、見つかったらその行のF列を返せ。

 日本語に訳すと、こんな感じかな?

「正しいURLと記事名の表」から、この表のE列=記事名と同じものを探し、見つかったら(記事名に該当する)正しいURLを返せ。

 結果、こんな風になった。

 これで、ほぼ望みのモノが手に入った。欲しいのは、次の表だった。

  • 記事URL:記事名:古い記事URL:古い記事名:正しい記事名:正しいURL

 上の表だと、こんな風になる。

  • A列=記事URL:B列=記事名:C列=外れたURL:D列=外れた記事名:E列=正しい記事名:F列=正しいURL

【おわりに】

 なんか御大層な記事になっちゃったけど、要は VLOOKUP 関数を使いました、それだけの記事です。ちなみに、一番肝心の「外れたリンクを直す」のは、ココログの編集機能を使って手作業でやりました、はい。

 いやココログの記事一覧の画面って、検索機能もあるんだねえ。この作業にとりかかってから、やっと気がついたよ。

【関連記事】

|

« 大森望・日下三蔵編「年刊日本SF傑作選2013 さよならの儀式」創元SF文庫 | トップページ | ローレンス・レッシグ「REMIX ハイブリッド経済で栄える文化と商業のあり方」翔泳社 山形浩生訳 »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: ココログ:リンク切れ一覧と旧URL一覧と公開記事URL一覧を突き合わせるOpenOfficeCalc:

« 大森望・日下三蔵編「年刊日本SF傑作選2013 さよならの儀式」創元SF文庫 | トップページ | ローレンス・レッシグ「REMIX ハイブリッド経済で栄える文化と商業のあり方」翔泳社 山形浩生訳 »