『こぶたのラッパ』はサイトを移動しました!
今後はこちらをどうぞ
2007年 01月 24日
HTML Tidyの旧バージョン
よそ様のWebサイトのデータを元に勝手に二次サービスをすることは、そのWebサイトで許可されていない限り行わないでください。

と一言書いておいて、本題です。

拾ってきたhtmlを元に必要なデータを抽出しようと思う場合、それがvalidなhtmlでない場合はデータをつまみ出すのに結構な手間がかかります。
そんなときにHTML Tidyというツールを使って、綺麗なhtmlデータに作り直すことが出来ます。

ただ、そんな便利なTidyも、あまりにひどいhtmlの場合には次のようなメッセージを吐いて終了してしまいます。

This document has errors that must be fixed before
using HTML Tidy to generate a tidied up version.
----
(直訳)このドキュメントには、HTML Tidyで整形する前に修正が必要なエラーを含んでいます。


そんなの無視してある程度でいいから出してくれーと思うのですが、そういうオプションは用意されていないようです。

・・・実はそんな時は、古いバージョンのTidyを使うと動いてくれるかもしれません。
Internet Archiveこのページに、2000年8月4版のソースが残っていましたので、これを使って私のほしい結果を得られました。

ありがとう!Internet Archive!
ありがとう!HTML Tidy!
ありがとう!変なhtmlのWebサイト!
[PR]
by smilkobuta | 2007-01-24 15:54 | Webサイトシステム

<< かっこ悪いWindows XP... IEのチェックボックスがJav... >>