Re: 株式会社電子辞典の HD 辞典シリーズ
At Mon, 13 Oct 2003 17:08:29 +0900,
Fujii Hironori wrote:
>
> 辞書ファイルを hex してみましたが、
> ロ社のとはヘッダ部の構成や
> オフセット部がリトルエンディアンなど違いがありますね。
> 肝心のデータのところは手がかりが少ない感じです、解読は難しそう。
今のところ、わかったことを。
ユニコード、解析しにくい。
---
4096バイト毎に LZSS にて圧縮
まとめて圧縮するデータの塊をチャンクと呼ぶ
リトルエンディアン(LE)
本文は UTF-16 (LE)
ヘッダ、オフセット部、チャンク部で構成
■ヘッダ
0x50バイト
位置 (バイト数)
--------------
0x00 (4) 'BODY' など
0x16 (4)
0x1a (4) チャンク部開始位置(ファイルの先頭から)
0x1e (4) チャンク部のサイズ
0x40 (4) 圧縮前データサイズ
ファイルサイズ = チャンク部開始位置 + チャンク部のサイズ
チャンク数 = (チャンク部開始位置 - 0x50) / 4
■オフセット部
4バイト、LE
■チャンク部
まず、1ビットのフラグ。
フラグが `1'のときは続く1バイトが文字。
フラグが `0'のときは続く2バイトで一致を表現。表現法は不明
---
藤井宏憲
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735