Re: Coping files with filename kanji code conversion

From(投稿者):	yas@is.tsukuba.ac.jp (Yasushi Shinjo)
Newsgroups(投稿グループ):	fj.sys.mac.os-x,fj.kanji
Subject(見出し):	Re: Coping files with filename kanji code conversion
Date(投稿日時):	09 Mar 2006 05:09:48 GMT
Organization(所属):	Institute of Information Sciences and Electronics, University of Tsukuba
References(祖先記事, 一番最後が直親):	(G) <YAS.06Mar4034752@kirk.is.tsukuba.ac.jp>
(G) <4a8cud.oem.ln@news.biglobe.ne.jp>
(G) <YAS.06Mar6001841@kirk.is.tsukuba.ac.jp>
(G) <060308154732.M0156923@athena.ginganet.org>
(G) <HeFPf.72$2I5.23@news-virt.s-kddi1.home.ne.jp>
Message-ID(記事識別符号):	(G) <YAS.06Mar9140948@kirk.is.tsukuba.ac.jp>
Followuped-by(子記事):	(G) <n8TPf.76$2I5.16@news-virt.s-kddi1.home.ne.jp>

From(投稿者):

yas@is.tsukuba.ac.jp (Yasushi Shinjo)

Newsgroups(投稿グループ):

fj.sys.mac.os-x,fj.kanji

Subject(見出し):

Re: Coping files with filename kanji code conversion

Date(投稿日時):

09 Mar 2006 05:09:48 GMT

Organization(所属):

Institute of Information Sciences and Electronics, University of Tsukuba

References(祖先記事, 一番最後が直親):

(G) <YAS.06Mar4034752@kirk.is.tsukuba.ac.jp>

(G) <4a8cud.oem.ln@news.biglobe.ne.jp>

(G) <YAS.06Mar6001841@kirk.is.tsukuba.ac.jp>

(G) <060308154732.M0156923@athena.ginganet.org>

(G) <HeFPf.72$2I5.23@news-virt.s-kddi1.home.ne.jp>

Message-ID(記事識別符号):

(G) <YAS.06Mar9140948@kirk.is.tsukuba.ac.jp>

Followuped-by(子記事):

(G) <n8TPf.76$2I5.16@news-virt.s-kddi1.home.ne.jp>

記事全体へのコマンド

新城＠筑波大学情報です。こんにちは。

In article <HeFPf.72$2I5.23@news-virt.s-kddi1.home.ne.jp>
        shirai@unixusers.net (Takashi SHIRAI) writes:
> 　しらいです。
> 　既に解決とゆーか強制解決しちゃったみたいですが。

こちらでも、問題が残っています。ネットニュースなので、他の人
が見ても参考になるし、未来に同じ問題にぶつかる人も出てくるの
で、いい情報を出してもらえるのはありがたいです。

> In article <060308154732.M0156923@athena.ginganet.org>,
> Kawaguti Ginga <ginga-fj-swentemporal@ginganet.org> wrote:
> >川口です
> >でもって FDclone でコピーを実施すれば
> >FDclone が扱える範囲では漢字コード変換しながらコピーしてくれそう．
> >(たぶん)
> 　この辺りの詳細は下記 URL の Step1,2 辺りが参考になると思い
> ます。
> http://hp.vector.co.jp/authors/VA012337/soft/fd/samba.html

面白い機能ですね。複数の漢字コードに同時に対応するアプリケー
ションというのは、探してもあんまりありません。

> ># 特定pathでは他の文字コード
> ># directories on which language code type in filename is UTF-8
> >#       Default: none
> >#UFT8PATH=""
> 
> 　「UFT8PATH」は「UTF8PATH」の TYPO だとして、Mac OS X の場
> 合は「UTF8MACPATH」の方が無難だと思います。じゃないと濁点付
> の仮名文字辺りで正しく convert されない筈です。

「が」と「か゛」の問題ですね。一応、どちらでも大丈夫だと学生
が言っていました。比較する時に標準化しているみたい。

> 　あと「UTF8」の方は CP932 用の変換テーブルを使ってるので、
> それ以外の UTF-8 環境、例えば Zaurus とか Fedora Core とかで
> は微妙に mapping が異なるかも知れません。
> ＃　一体どこが *UNI*CODE なんでしょうかねー ;-p

> 　階層の件はパス名長制限のぎりぎりのところでは発生するかも知
> れません。UTF-8 の方が EUC-JP や Shift_JIS よりも多くの byte
> 数を必要としますから。

ファイル名が255文字のファイルも存在していますが、漢字かどう
かはちゃんと調べていません。

> 　Shift_JIS 云々というのは多分「\」を含む漢字の問題だと思い
> ますが、FDclone は /bin/sh を呼んだりはしてないので shell の
> meta character の影響は受けません。

あと、１つのディレクトリに EUC と Shift_JIS が混じっていると
か、漢字コードを正規化すると、同じになってしまうファイル名が
存在する（可能性がある）とか、細かい変な話がいろいろあります。
u1 = toutf8(f1) と u2 = toutf8(f2) で、f1 != f2 なのに u1 ==
u2 になってしまうとか、最初から f1 と u2 が混在しているとか。
あんまりないとは思いますけど。

ディレクトリ単位よりも、もう少し細かい単位で nkf かなにかで
コードを自動判定して正規化できるといいですし、あと、バッチ的
に変換して、変換の記録を残せるといいなあと思いました。700人
分のファイル、500万個くらいのファイルなので、対話的にやって
いると終りません。でも最後は個人で見ないとわからない部分が残
るので、そういう所には、FDclone は便利そうです。

ありがとうございました。

＼＼　新城　靖　（しんじょう　やすし）　＼＼
＼＼　筑波大学　電子・情報　　　　　　　＼＼

Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735