« 濁音、半濁音、促音、拗音 | トップページ | 携帯メールは嫌いです »

2014年11月14日 (金)

ヘボン式ローマ字

カナ→アルファベット2文字変換テーブルの作成も大詰めに近づいたと思ったのですが、
変換テーブルのグループ化をしてデーターの重複を調べたら、こんなに重複が有りました。
Photo


日本郵便の郵便番号データローマ字版の屁時に「ヘボン式ローマ字の仕様は、ローマ字変換仕様(PDF67kバイト) を参照してください。」との記載が有り、実際のデータとの照合で、
③ 撥音(ン)の変換ルール   「ン」に続く、ローマ字が「B」、「M」、「P」のいずれかになる場合は、「ン」を「M」に変換する。   例 ナンバ → NAMBA ホンマ → HOMMA マンポ → MAMPO
が、アン、イン、ウン、エン、オンの重複の原因と判明しました。

オウとオオについては、こちらのルールが原因でした。
⑤ 長音(ー、オ、ウ)の変換ルール   長音は前の母音で代用するため、変換しない。   例 オオノ → ONO サイトウ → SAITO ノーリツ → NORITSU

カとワ ヤとヨの重複は、以前の記事「住所データの扱いは難しい-2」で書いた、同じ郵便番号で、同じ漢字表記で読み方が違う地区の存在が原因です。

ルールに基づいた変換結果なので、データを削除したり、強制的に置き換えて対処することにします。

カワヤヨについては、不本意ですが、対象郵便番号を変換対象から外して対処します。

« 濁音、半濁音、促音、拗音 | トップページ | 携帯メールは嫌いです »

VB.net 業務管理」カテゴリの記事

郵便番号データの住所入力データ化」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

トラックバック


この記事へのトラックバック一覧です: ヘボン式ローマ字:

« 濁音、半濁音、促音、拗音 | トップページ | 携帯メールは嫌いです »

スライムパンク防止剤被害

川越市周辺の自転車屋MAP

埼玉県内出張修理店情報

自転車出張修理のブログ

ブログランキング

カテゴリー

無料ブログはココログ