Re: HTML での 空白の扱いについて
>> 一般的に HTML/XHTML 中での空白文字の扱いをどうすべきかというのは
>> HTML4 / XHTML 1.0 / Modularization of XHTML でそれぞれ微妙に食い違って
>> たりしてなかなか頭の痛い点なんですが、将来的には表示に関しては現在
>> W3C 勧告候補になっている "CSS3 Text Module" の "7.2. White space control"
>> の規定に従って処理すべし、ということに一本化されるはずです。
河野さん>
>この文章は結構複雑だけど、肝は?
肝は、望ましい空白処理はスクリプト/文字種によって異なるので、前後の
文字種に応じて良きにはからえ、ってとこです。改行に関しては大まかに
言って、ラテン文字やギリシャ文字、キリル文字の場合はスペースに変換、
CJK 文字の場合は除去、タイ文字やクメール文字の場合は zero width space
に変換するか除去することになります。
なお「表示に関しては」と断った通り、これはあくまでアプリケーションに
渡された解析済み文書を表示する段階での話です。HTML 3.2 あたりだと、
連続する空白文字は1個のスペースと同等に扱う、とか能天気に言っちゃって
ますが、これが XHTML 2.0 あたりになるとソース中の空白文字はそのまま
アプリケーションに渡され、表示する段階で上記のような処理を行なう、と
言うように明確に区別されるはずです。
>禁則処理とかも、時代とともに変わるものなんでしょうけどね。
CSS3 Text Module には 'word-break-cjk' だの禁則関係もいろいろと入って
ますが、正直誰がフル実装するんでしょうね、これ。かれこれ1年以上野晒し
ですが、一体いつになったら勧告候補から次の段階に進むことやら。
--
Masayasu Ishikawa
^L
# とか他人事のように言ってみる。
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735