読者です 読者をやめる 読者になる 読者になる

Filter-EntryFullText/sixapart.pl

<meta name="generator"> が typepad / Movable Type のときだけ動くようになっている。他の sixapart-standard な HTML にも適用したいなあ。
[追記] r930で取り入れられました。

 sub handle {
     my($self, $args) = @_;
-    $args->{content} =~ m!<meta name="generator" content="(?:http://www\.typepad\.com/|Movable Type.*?)" />!;
+    return 1 if $args->{content} =~ m!<html[^>]+id="sixapart-standard"!;
+    return 1 if $args->{content} =~ m!<meta name="generator" content="(?:http://www\.typepad\.com/|Movable Type.*?)" />!;
+    return;
 }

最近作った某blogサービスが sixapart-standard な HTML を出力するので。

あと、本文抽出部分で

<div class="entry-body(?:-text)?">(.*?)</div>

という正規表現でマッチさせているので、本文内に </div> があるとそこで切られちゃう。
まともにやるならちゃんと HTML をパースすることになるが、めんどいな。