<meta name="generator"> が typepad / Movable Type のときだけ動くようになっている。他の sixapart-standard な HTML にも適用したいなあ。
[追記] r930で取り入れられました。
sub handle { my($self, $args) = @_; - $args->{content} =~ m!<meta name="generator" content="(?:http://www\.typepad\.com/|Movable Type.*?)" />!; + return 1 if $args->{content} =~ m!<html[^>]+id="sixapart-standard"!; + return 1 if $args->{content} =~ m!<meta name="generator" content="(?:http://www\.typepad\.com/|Movable Type.*?)" />!; + return; }
最近作った某blogサービスが sixapart-standard な HTML を出力するので。
あと、本文抽出部分で
<div class="entry-body(?:-text)?">(.*?)</div>
という正規表現でマッチさせているので、本文内に </div> があるとそこで切られちゃう。
まともにやるならちゃんと HTML をパースすることになるが、めんどいな。