« 今日の修理 | トップページ | 新年あけまして おめでとうございます »

2014年12月31日 (水)

町域(カナ)分離新アルゴリズム検討

町域のカナ表記の分離で行き詰っていましたが、ローマ字をカナに変換するのではなく、カナをローマ字に変換することで、分離用のローマ字データとの対照が出来ないか検討を始めました。

郵便番号データのローマ字表記はヘボン式なのでローマ字化のルールが明白です。
こちらは、東京都のパスポート申請用のヘボン式ローマ字の記入の手引きです。

ローマ字からカナに変換しようとすると、

■長音:「O」や「U」は記入しない→ (例) おおの ONO/さいとう SAITO

が制約になって、カナに戻せません。カナからなら、OやUを除いてローマ字化することが出来ます。

カナ表記を一文字づつ、ローマ字に変換しながら、スペースで区切られたローマ字表記と比較することで、分離位置を特定できます。

とはいっても、こんなデータを見つけました。
漢字表記部分にはスペースが入っていながら、ローマ字表記では、スペースが無いデータ33件です。
Bl

こんな、表記の揺れも有ります。
Yure
Yure_2

漢数字の表記が、アラビア数字だったり、読み仮名のカナ表記だったり、ローマ字表記だったりします。

一筋縄では、いかないので、複数の方法を組み合わせられよう、検討中です。

« 今日の修理 | トップページ | 新年あけまして おめでとうございます »

郵便番号データの住所入力データ化」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

トラックバック


この記事へのトラックバック一覧です: 町域(カナ)分離新アルゴリズム検討:

« 今日の修理 | トップページ | 新年あけまして おめでとうございます »

スライムパンク防止剤被害

川越市周辺の自転車屋MAP

埼玉県内出張修理店情報

自転車出張修理のブログ

ブログランキング

カテゴリー

無料ブログはココログ