町域(カナ)分離新アルゴリズム検討
町域のカナ表記の分離で行き詰っていましたが、ローマ字をカナに変換するのではなく、カナをローマ字に変換することで、分離用のローマ字データとの対照が出来ないか検討を始めました。
郵便番号データのローマ字表記はヘボン式なのでローマ字化のルールが明白です。
こちらは、東京都のパスポート申請用のヘボン式ローマ字の記入の手引きです。
ローマ字からカナに変換しようとすると、
■長音:「O」や「U」は記入しない→ (例) おおの ONO/さいとう SAITO
が制約になって、カナに戻せません。カナからなら、OやUを除いてローマ字化することが出来ます。
カナ表記を一文字づつ、ローマ字に変換しながら、スペースで区切られたローマ字表記と比較することで、分離位置を特定できます。
とはいっても、こんなデータを見つけました。
漢字表記部分にはスペースが入っていながら、ローマ字表記では、スペースが無いデータ33件です。
こんな、表記の揺れも有ります。
漢数字の表記が、アラビア数字だったり、読み仮名のカナ表記だったり、ローマ字表記だったりします。
一筋縄では、いかないので、複数の方法を組み合わせられよう、検討中です。
« 今日の修理 | トップページ | 新年あけまして おめでとうございます »
「郵便番号データの住所入力データ化」カテゴリの記事
- 郵便番号データの住所入力データ化取り止め(2016.06.27)
- マージ済みデータで一部欠落と勘違いしました(2016.06.26)
- 改めて「**一円」を検証(2016.06.24)
- **の次に番地がくる場合の扱い(2016.06.23)
- ビルデータの扱い変更(2016.06.22)
コメント