Re: News subjects in these days
山口です。
In article <050619233917.M0102668@www.galaxy.ocn.ne.jp>:
>> >> 最近7日間に届いた記事のSubjectとnewsgroupの統計をお送りします。
>> >> 抽出条件はこの記事の最後に書いています。
という記事をfj.news.listsへ投稿しました。
元々、fj.news.miscにて
In article <040813012908.M0128772@sencha.galaxy.ocn.ne.jp>:
-> ふと最近の自分の投稿数を確認しようとfj.news.listsを見たら
-> fjに投稿された記事の統計記事が投稿されていないことに気づき
-> ました(ややこし)。
[snip]
-> 6月中旬からfjの記事はOCNから全部取得して残してるから、それ
-> で試しにやってみるかなぁ。
と投稿したのがキッカケですが、実際に集計できるようになるまでに
一年もかかってしまいました。
原因は本人のやる気なのですが、実際にやる気が出た1ヵ月前から
最近集計できるようになるまでに抱えた問題を書き出して見ると…
1. fj.soc.culture.chineseに見られるcharset="big5"な記事の
読み込み時、java.io.BufferedReader#readLineでは正しく
一行分を読めない場合があり、Date部をどうしても解析でき
ない現象に悩んだ。
2. EMP記事を集計対象とできるよう、内容が同一と判断する為の
方法に悩んだ。
3. 約1年分のfjの記事をPostgreSQLへ登録したんですが、一括
登録時に何故かNetwork接続がプチプチ切れる現象が発生。
それぞれどのように解決したかはまた次の記事に。
--
Tadasuke YAMAGUCHI @ Hyogo
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735