リンク切れhtmlファイルをまとめて削除するスクリプト

sasaki 金曜, 2007-12-14 17:44

ドリームウェーバーで「サイト全体のリンクチェック...」を実行すると「リンク切れリスト(単独ファイルリスト)」を作ってくれる。

こんな感じのリスト

images/old.jpg
images/very_old.jpg
diary/old.html
diary/very_old.html
...

 

このリストが 1万6千行もあった(おいおい!)ので、削除する。 

さすがに手作業で消すには社会保険庁の年金照合作業のような気がするので、シェルスクリプトか、Perlスクリプトで一気に消したい。

 

■リンク切れhtmlファイルをまとめて削除する

流れは以下の通り。 

1. リンク切れリストの改行をLFにして保存する。 (list.txtという名前)

2. リンク切れリストをhtmlドキュメントルートに置く。(FTPでアップしておく)

3. htmlドキュメントルートに移動して、リンク切れリスト内のファイルを削除していく。

(ドキュメントルートは、/home/web/puclic_htmlとする) 

$ cd /home/web/public_html/
$ cat list.txt  (確認しておく)
$ cat list.txt | xargs rm -f {}

 

※ 必ず、バックアップしたディレクトリで実験してから本番を行うこと。

※ robots.txtが削除リストに入っているので消しておく。

 

結局、rubyやperlのお世話になるまでもなかった...。