Re: Coping files with filename kanji code conversion
新城@筑波大学情報です。こんにちは。
In article <HeFPf.72$2I5.23@news-virt.s-kddi1.home.ne.jp>
shirai@unixusers.net (Takashi SHIRAI) writes:
> しらいです。
> 既に解決とゆーか強制解決しちゃったみたいですが。
こちらでも、問題が残っています。ネットニュースなので、他の人
が見ても参考になるし、未来に同じ問題にぶつかる人も出てくるの
で、いい情報を出してもらえるのはありがたいです。
> In article <060308154732.M0156923@athena.ginganet.org>,
> Kawaguti Ginga <ginga-fj-swentemporal@ginganet.org> wrote:
> >川口です
> >でもって FDclone でコピーを実施すれば
> >FDclone が扱える範囲では漢字コード変換しながらコピーしてくれそう.
> >(たぶん)
> この辺りの詳細は下記 URL の Step1,2 辺りが参考になると思い
> ます。
> http://hp.vector.co.jp/authors/VA012337/soft/fd/samba.html
面白い機能ですね。複数の漢字コードに同時に対応するアプリケー
ションというのは、探してもあんまりありません。
> ># 特定pathでは他の文字コード
> ># directories on which language code type in filename is UTF-8
> ># Default: none
> >#UFT8PATH=""
>
> 「UFT8PATH」は「UTF8PATH」の TYPO だとして、Mac OS X の場
> 合は「UTF8MACPATH」の方が無難だと思います。じゃないと濁点付
> の仮名文字辺りで正しく convert されない筈です。
「が」と「か゛」の問題ですね。一応、どちらでも大丈夫だと学生
が言っていました。比較する時に標準化しているみたい。
> あと「UTF8」の方は CP932 用の変換テーブルを使ってるので、
> それ以外の UTF-8 環境、例えば Zaurus とか Fedora Core とかで
> は微妙に mapping が異なるかも知れません。
> # 一体どこが *UNI*CODE なんでしょうかねー ;-p
> 階層の件はパス名長制限のぎりぎりのところでは発生するかも知
> れません。UTF-8 の方が EUC-JP や Shift_JIS よりも多くの byte
> 数を必要としますから。
ファイル名が255文字のファイルも存在していますが、漢字かどう
かはちゃんと調べていません。
> Shift_JIS 云々というのは多分「\」を含む漢字の問題だと思い
> ますが、FDclone は /bin/sh を呼んだりはしてないので shell の
> meta character の影響は受けません。
あと、1つのディレクトリに EUC と Shift_JIS が混じっていると
か、漢字コードを正規化すると、同じになってしまうファイル名が
存在する(可能性がある)とか、細かい変な話がいろいろあります。
u1 = toutf8(f1) と u2 = toutf8(f2) で、f1 != f2 なのに u1 ==
u2 になってしまうとか、最初から f1 と u2 が混在しているとか。
あんまりないとは思いますけど。
ディレクトリ単位よりも、もう少し細かい単位で nkf かなにかで
コードを自動判定して正規化できるといいですし、あと、バッチ的
に変換して、変換の記録を残せるといいなあと思いました。700人
分のファイル、500万個くらいのファイルなので、対話的にやって
いると終りません。でも最後は個人で見ないとわからない部分が残
るので、そういう所には、FDclone は便利そうです。
ありがとうございました。
\\ 新城 靖 (しんじょう やすし) \\
\\ 筑波大学 電子・情報 \\
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735