日本語を逆アセンブル2007-03-11 23:57:19 (5065d)
書籍などの長い文章を書いていて面倒なのは、表記の統一である。 たとえば、
などである。 基本的には、同じ単語には同じ表記を一貫して使う方がいい、とされている。 しかし、書いている最中にはそんなことは気にせず、ひたすらフルスピードなのが普通である。 それで、あとになって面倒な作業を赤ペン(+PDFでのサーチ)でやることになるのである。 が、しかし。 ここに強力な兵器を発見した。その名はMeCab。 こいつは、日本語の文章を、いわば「逆アセンブル」してくれるものである。 すなわち、古文の授業とかでやらされた、品詞分解である(形態素解析ともいう)。 その威力は、たとえばこんな感じである。 こいつは、日本語の文章をいわば逆アセンブルしてくれるものである。
漢字とカナの混じった文章を全てカタカナでの読みに直せるので、その結果をソートして同じ読みで異なった表記を探して、そこを直せば表記の揺れもバッチリ回避できるのである。 すばらしい。作者に感謝である。 そもそも、こういう仕組みは、ぜひ出版社で備えていただきたいものである。 ちなみに、Mecabで文章の全てをカタカナに直してみると コイツハ、ニホンゴノブンショウヲイワバギャクアセンブルシテクレルモノデアル。 てな感じで、昔の電報の風情が味わえる。 |