At Mon, 13 Oct 2003 17:08:29 +0900,
Fujii Hironori wrote:
> 
> 辞書ファイルを hex してみましたが、
> ロ社のとはヘッダ部の構成や
> オフセット部がリトルエンディアンなど違いがありますね。
> 肝心のデータのところは手がかりが少ない感じです、解読は難しそう。

今のところ、わかったことを。
ユニコード、解析しにくい。

---
4096バイト毎に LZSS にて圧縮
まとめて圧縮するデータの塊をチャンクと呼ぶ
リトルエンディアン(LE)
本文は UTF-16 (LE)
ヘッダ、オフセット部、チャンク部で構成

■ヘッダ

0x50バイト

  位置 (バイト数)
  --------------
  0x00 (4) 'BODY' など
  0x16 (4)
  0x1a (4) チャンク部開始位置(ファイルの先頭から)
  0x1e (4) チャンク部のサイズ
  0x40 (4) 圧縮前データサイズ

ファイルサイズ = チャンク部開始位置 + チャンク部のサイズ
チャンク数 = (チャンク部開始位置 - 0x50) / 4

■オフセット部

4バイト、LE

■チャンク部

まず、1ビットのフラグ。
フラグが `1'のときは続く1バイトが文字。
フラグが `0'のときは続く2バイトで一致を表現。表現法は不明
---
藤井宏憲