山口です。

In article <050619233917.M0102668@www.galaxy.ocn.ne.jp>:
>> >> 最近7日間に届いた記事のSubjectとnewsgroupの統計をお送りします。
>> >> 抽出条件はこの記事の最後に書いています。

という記事をfj.news.listsへ投稿しました。

元々、fj.news.miscにて

In article <040813012908.M0128772@sencha.galaxy.ocn.ne.jp>:
-> ふと最近の自分の投稿数を確認しようとfj.news.listsを見たら
-> fjに投稿された記事の統計記事が投稿されていないことに気づき
-> ました(ややこし)。
[snip]
-> 6月中旬からfjの記事はOCNから全部取得して残してるから、それ
-> で試しにやってみるかなぁ。

と投稿したのがキッカケですが、実際に集計できるようになるまでに
一年もかかってしまいました。

原因は本人のやる気なのですが、実際にやる気が出た1ヵ月前から
最近集計できるようになるまでに抱えた問題を書き出して見ると…

  1. fj.soc.culture.chineseに見られるcharset="big5"な記事の
     読み込み時、java.io.BufferedReader#readLineでは正しく
     一行分を読めない場合があり、Date部をどうしても解析でき
     ない現象に悩んだ。

  2. EMP記事を集計対象とできるよう、内容が同一と判断する為の
     方法に悩んだ。

  3. 約1年分のfjの記事をPostgreSQLへ登録したんですが、一括
     登録時に何故かNetwork接続がプチプチ切れる現象が発生。

それぞれどのように解決したかはまた次の記事に。
-- 
 Tadasuke YAMAGUCHI @ Hyogo