Re: 株式会社電子辞典の HD 辞典シリーズ

From(投稿者):	Fujii Hironori <fujii@chi.its.hiroshima-cu.ac.jp>
Newsgroups(投稿グループ):	fj.comp.applications.dictionary
Subject(見出し):	Re: 株式会社電子辞典の HD 辞典シリーズ
Date(投稿日時):	Fri, 24 Oct 2003 15:26:58 +0900
Organization(所属):	Hiroshima City University Graduate School
References(祖先記事, 一番最後が直親):	(G) <bm5mc3$2he$1@ns.src.ricoh.co.jp>
(G) <87ismto8zm.wl%fujii@chi.its.hiroshima-cu.ac.jp>
Message-ID(記事識別符号):	(G) <873cdjtakt.wl%fujii@chi.its.hiroshima-cu.ac.jp>
Followuped-by(子記事):	(G) <bnai8r$jja$1@ns.src.ricoh.co.jp>

From(投稿者):

Fujii Hironori <fujii@chi.its.hiroshima-cu.ac.jp>

Newsgroups(投稿グループ):

fj.comp.applications.dictionary

Subject(見出し):

Re: 株式会社電子辞典の HD 辞典シリーズ

Date(投稿日時):

Fri, 24 Oct 2003 15:26:58 +0900

Organization(所属):

Hiroshima City University Graduate School

References(祖先記事, 一番最後が直親):

(G) <bm5mc3$2he$1@ns.src.ricoh.co.jp>

(G) <87ismto8zm.wl%fujii@chi.its.hiroshima-cu.ac.jp>

Message-ID(記事識別符号):

(G) <873cdjtakt.wl%fujii@chi.its.hiroshima-cu.ac.jp>

Followuped-by(子記事):

(G) <bnai8r$jja$1@ns.src.ricoh.co.jp>

記事全体へのコマンド

At Mon, 13 Oct 2003 17:08:29 +0900,
Fujii Hironori wrote:
> 
> 辞書ファイルを hex してみましたが、
> ロ社のとはヘッダ部の構成や
> オフセット部がリトルエンディアンなど違いがありますね。
> 肝心のデータのところは手がかりが少ない感じです、解読は難しそう。

今のところ、わかったことを。
ユニコード、解析しにくい。

---
4096バイト毎に LZSS にて圧縮
まとめて圧縮するデータの塊をチャンクと呼ぶ
リトルエンディアン(LE)
本文は UTF-16 (LE)
ヘッダ、オフセット部、チャンク部で構成

■ヘッダ

0x50バイト

  位置 (バイト数)
  --------------
  0x00 (4) 'BODY' など
  0x16 (4)
  0x1a (4) チャンク部開始位置(ファイルの先頭から)
  0x1e (4) チャンク部のサイズ
  0x40 (4) 圧縮前データサイズ

ファイルサイズ = チャンク部開始位置 + チャンク部のサイズ
チャンク数 = (チャンク部開始位置 - 0x50) / 4

■オフセット部

4バイト、LE

■チャンク部

まず、1ビットのフラグ。
フラグが `1'のときは続く1バイトが文字。
フラグが `0'のときは続く2バイトで一致を表現。表現法は不明
---
藤井宏憲

Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735