新城@筑波大学情報です。こんにちは。

In article <HeFPf.72$2I5.23@news-virt.s-kddi1.home.ne.jp>
        shirai@unixusers.net (Takashi SHIRAI) writes:
>  しらいです。
>  既に解決とゆーか強制解決しちゃったみたいですが。

こちらでも、問題が残っています。ネットニュースなので、他の人
が見ても参考になるし、未来に同じ問題にぶつかる人も出てくるの
で、いい情報を出してもらえるのはありがたいです。

> In article <060308154732.M0156923@athena.ginganet.org>,
> Kawaguti Ginga <ginga-fj-swentemporal@ginganet.org> wrote:
> >川口です
> >でもって FDclone でコピーを実施すれば
> >FDclone が扱える範囲では漢字コード変換しながらコピーしてくれそう.
> >(たぶん)
>  この辺りの詳細は下記 URL の Step1,2 辺りが参考になると思い
> ます。
> http://hp.vector.co.jp/authors/VA012337/soft/fd/samba.html

面白い機能ですね。複数の漢字コードに同時に対応するアプリケー
ションというのは、探してもあんまりありません。

> ># 特定pathでは他の文字コード
> ># directories on which language code type in filename is UTF-8
> >#       Default: none
> >#UFT8PATH=""
> 
>  「UFT8PATH」は「UTF8PATH」の TYPO だとして、Mac OS X の場
> 合は「UTF8MACPATH」の方が無難だと思います。じゃないと濁点付
> の仮名文字辺りで正しく convert されない筈です。

「が」と「か゛」の問題ですね。一応、どちらでも大丈夫だと学生
が言っていました。比較する時に標準化しているみたい。

>  あと「UTF8」の方は CP932 用の変換テーブルを使ってるので、
> それ以外の UTF-8 環境、例えば Zaurus とか Fedora Core とかで
> は微妙に mapping が異なるかも知れません。
> # 一体どこが *UNI*CODE なんでしょうかねー ;-p

>  階層の件はパス名長制限のぎりぎりのところでは発生するかも知
> れません。UTF-8 の方が EUC-JP や Shift_JIS よりも多くの byte
> 数を必要としますから。

ファイル名が255文字のファイルも存在していますが、漢字かどう
かはちゃんと調べていません。

>  Shift_JIS 云々というのは多分「\」を含む漢字の問題だと思い
> ますが、FDclone は /bin/sh を呼んだりはしてないので shell の
> meta character の影響は受けません。

あと、1つのディレクトリに EUC と Shift_JIS が混じっていると
か、漢字コードを正規化すると、同じになってしまうファイル名が
存在する(可能性がある)とか、細かい変な話がいろいろあります。
u1 = toutf8(f1) と u2 = toutf8(f2) で、f1 != f2 なのに u1 ==
u2 になってしまうとか、最初から f1 と u2 が混在しているとか。
あんまりないとは思いますけど。

ディレクトリ単位よりも、もう少し細かい単位で nkf かなにかで
コードを自動判定して正規化できるといいですし、あと、バッチ的
に変換して、変換の記録を残せるといいなあと思いました。700人
分のファイル、500万個くらいのファイルなので、対話的にやって
いると終りません。でも最後は個人で見ないとわからない部分が残
るので、そういう所には、FDclone は便利そうです。

ありがとうございました。

\\ 新城 靖 (しんじょう やすし) \\
\\ 筑波大学 電子・情報       \\