私は Wordファイルが嫌いである。別に絵が入っているわけでもなく、複雑な 表が入っているわけでもない、すなわちプレイン・テキストで十分表現できる 文書を Word形式で保存されたものが特に嫌いである。そんなわけで、なるべ く Wordのファイルは避けているのだが、どうしても読まないといけないこと もある。そんなときは、これまではまず Wordで開いてから、テキストで保存 する、という作業をしていた。しかし、それもめんどくさいと感じて早数年。
Wordファイルをテキストに変換してくれる Unix上で使えるプログラムがいく つかあることは知っていた。しかし、これらを知ったときに試したときは、あ まり私が時間を割かなかったこともあり、日本語の文書の変換がうまくいかな かったので、さっさとあきらめていた。しかし、やはりいちいち Wordで開く のがめんどくさいので、久々にこれらのプログラムを試してみた。
試したのは、 catdoc, Antiword, Word2x で、それぞれ FreeBSD Ports Collection にあるものをコンパイルして試して みた。以下、きわめて短時間に、ろくすっぽドキュメントも読まずに試した結 果であることを理解した上で読んでいただきたい。
Catdoc
- 英語文書
- 問題なく変換
- 日本語文書
- -d utf-8 をつけて実行すれば、 UTF-8に正しく変換。後は、 lvなり UTF-8対応の nkfなりで処理可能。
Antiword
- 英語文書
- 問題なく変換
- 日本語文書
- -m UTF-8 をつけて実行すれば、 UTF-8に正しく変換。後は、 lvなり UTF-8対応の nkfなりで処理可能。
Word2x
- 英語文書
- なぜかエラーが出る。めんどくさいので追っていない。
- 日本語文書
- 英語文書でエラーが出たので試してもいない。
結論
とりあえず antiword か catdoc の出力を nkf -We |jless などとして使うの がお手軽そうである。 (lvのオプションを思い出せなくてそうなってしまっ た…。) Googleで探して出てきた一部のページには、これらのプログラムは日 本語非対応と書いてあったので残念がっていたのだが、まずはやってみること が重要である、ということだ。これで私の Windows PCの Wordが起動される機 会は激減するに違いない。
コメント (1)
ぱない (2004年12月27日 (月) 14:59):
表なんかはどんなフウになるんざましょね?
ところでPDFがさらにのさばってきてやがる気がするんだけどこっちはどないなもんでしょう?