ヘボン式ローマ字
カナ→アルファベット2文字変換テーブルの作成も大詰めに近づいたと思ったのですが、
変換テーブルのグループ化をしてデーターの重複を調べたら、こんなに重複が有りました。
日本郵便の郵便番号データローマ字版の屁時に「ヘボン式ローマ字の仕様は、ローマ字変換仕様(PDF67kバイト) を参照してください。」との記載が有り、実際のデータとの照合で、
③ 撥音(ン)の変換ルール
「ン」に続く、ローマ字が「B」、「M」、「P」のいずれかになる場合は、「ン」を「M」に変換する。
例 ナンバ → NAMBA ホンマ → HOMMA マンポ → MAMPO
が、アン、イン、ウン、エン、オンの重複の原因と判明しました。
オウとオオについては、こちらのルールが原因でした。
⑤ 長音(ー、オ、ウ)の変換ルール
長音は前の母音で代用するため、変換しない。
例 オオノ → ONO サイトウ → SAITO ノーリツ → NORITSU
カとワ ヤとヨの重複は、以前の記事「住所データの扱いは難しい-2」で書いた、同じ郵便番号で、同じ漢字表記で読み方が違う地区の存在が原因です。
ルールに基づいた変換結果なので、データを削除したり、強制的に置き換えて対処することにします。
カワヤヨについては、不本意ですが、対象郵便番号を変換対象から外して対処します。
« 濁音、半濁音、促音、拗音 | トップページ | 携帯メールは嫌いです »
「VB.net 業務管理」カテゴリの記事
- Accessフォームで住所→郵便番号変換(2016.06.05)
- 郵便番号は入りませんでした。(2016.05.30)
- 住所→郵便番号変換(2016.05.24)
- BlueTooth USBアダプタ その後(2016.02.12)
- VBAに戻ります。(2015.05.03)
「郵便番号データの住所入力データ化」カテゴリの記事
- 郵便番号データの住所入力データ化取り止め(2016.06.27)
- マージ済みデータで一部欠落と勘違いしました(2016.06.26)
- 改めて「**一円」を検証(2016.06.24)
- **の次に番地がくる場合の扱い(2016.06.23)
- ビルデータの扱い変更(2016.06.22)
コメント