Tadasuke YAMAGUCHI wrote:
> 山口です。
> 第三者キャンセル対象記事基準
> 
>   1. 10グループ以上にcross postしている記事
>   2. 5グループ以上にmulti postしている記事 (本文のMD5値で比較)
>   3. Black List Site*1から流れてきた記事
>   4. Googleから2chのPageをアレンジせず継続的に切り貼り投稿している記事

類似値が相互にある程度以上の記事が3本以上
という記事群も対象にしたいところです。
具体的には、私がfj.news.lists.filtersに投稿している様なものです。
<d6d3ci$i6e$1@caraway.media.kyoto-u.ac.jp>
からの流れで実行しております。

具体的な計算は、
ヘッダをのぞく本文について、
diff -n -B
した結果を
wc -l
したものを二つの記事の行数のうち少ない方で割ったものに100を掛けたもので
す。簡単に言えば、行単位での編集距離に近いものと行数との比を求めています。