カテゴリー「郵便番号データの住所入力データ化」の39件の記事

2016年6月27日 (月)

郵便番号データの住所入力データ化取り止め

随分長い間、悪戦苦闘していましたが、郵便番号データの住所入力データ化を取り止めます。 理由は、住所入力データとして、郵便番号データより使いやすそうな無償のデータが見つかったからです。

なぜ今まで見つけられなかったのかが不思議ですが、日本基盤データベースというサイトで「住所基盤データベース」が無償で購入できます。

郵便番号データでは、全域とか各町という表現で落ちている町域データも入っている様子です。
何よりも、町域(大字)と字に地名が分離されているのが嬉しいです。

自分用にはまだ加工が必要ですが元データとしてはこちらを使用します。

購入時にダウンロード回数が10回と表示されているので、10回のダウンロード後は有償板を購入になるのかな?とちょっと不安もありますが、その際はまた郵便番号データの住所入力化が復活するかもしれません。

2016年6月26日 (日)

マージ済みデータで一部欠落と勘違いしました

ホームページにアップした郵便番号データのマージ済みCSVファイルですが、美馬市美馬町(郵便番号771-2102)のデータが一部欠落しています。

マージ作業そのものは問題がなかったのですが、CSVファイル作成時に255文字でカットされてしまったようです。
今のところ、見つけたのは1件だけですが、他にも欠落している可能性が有りますので、対処法が見つかるまで、ファイルは削除します。

まだ対処法が見つかっていません。

【追記】
文字数でソートした結果で確認すると、データの一部欠落は美馬町の1件だけでした。
ただ、市町村合併の結果でどう変化するかわからないのが、郵便番号データですから、いずれにしても対処は必要です。

【再追記】
タイトルも変更しましたが、勘違いでした。
CSVファイルは正しく作成されていました。
CSVファイルの確認の為,Accessのテーブルにリンクしていたのですが、リンクでデータ取り込みの設定の際列の設定をメモにしなければいけなかったのにTEXTに設定してデータリンクしたため、255文字までしか取り込めていませんでした。

メモ設定にして、取り込み、欠落がないことを確認しました。

また、ファイルをアップします。

2016年6月24日 (金)

改めて「**一円」を検証

昨日の記事で、(その他)の意味を調べると書きましたが、フラグが立っていないものもありますが、町域が分割された場合の字や丁目の纏まりのようです。
GoogleMapでは、(その他)を無視しても検索が出来るものが有りましたので、今のところは不要データとの認識ですが、全ての検証をした訳ではないので、絶対とは言い切れません。

今のところ、無視して不具合は見つかっていないので、「(その他)」の文言はブランク化の予定です。

もう一つブランク化予定の
郵便番号データに以下の説明のある「**町村一円」ですが

---「"○○市(または町・村)一円"」とは、町域名がない市区町村の場合にお書きいただく番号です。---

GoogleMapは先の次に番地がくる場合と同様に、町域のない住所の表示が苦手のようで、一円がらみの住所は検索しても表示されません。
村、または町の全域を表示します。

悩ましいのですが、Mapの仕様として諦めて、「**町村一円」についてはブランク化します。

将来、仕様が変われば、また検討します。

2016年6月23日 (木)

**の次に番地がくる場合の扱い

昨日、ビルのデータがGoogleMapの検索で有効になるため、ビルのデータを残すと書きました。

「以下に記載がない場合」のデータは削除しても問題がなかったのですが、「**の次に番地がくる場合」のフレーズを削除しようと削除してもGoogleMapで住所が表示されるか確認したところ、上手く表示してくれませんでした。

例えば、高知県いの町1700のいの町役場は表示されますが、茨城県境町1を入力すると境町陽光台1丁目が表示されます。
本当は、茨城県自動車学校境校です。

自動車学校を表示するには「茨城県境町(その他)1」と入力しなければいけません。

先のいの町役場も表示結果の住所は高知県いの町(その他)1700と表示されます。

というわけで、「**の次に番地がくる場合」の表記は「(その他)」に置き換えることにしますが
町域には(その他)を含むデータが他にもありますので、そちらのその他の意味を理解しておかないと次に進めません。

2016年6月22日 (水)

ビルデータの扱い変更

郵便番号データには、基準は判りませんがいくつかの高層ビルが町域データとして含まれ、個別の郵便番号も振られています。

一種の町域分割データとも見えるのですが、町域分割のフラグは付与されていません。

ビルには当然ですが所在地の住所もあり、IMEの郵便番号辞書では所在地を変換するとビルのものではない郵便番号に変換されます。

出張修理の地図出力には住所が有れば十分だったので、ビルデータは削除していましたが、GoogleMapでは郵便番号データに登録されているビル名で目的地として検索できますので、ビルのデータの削除はしないことにしました。

削除するデーターは、町域に「以下に記載がない場合」と表記されたレコードだけになりそうです。

ただ、コンボ用のデータとするには、件数が多くなるので、ビル名と階数を分けたいです。

2016年6月21日 (火)

分割された町域データのマージ済みCSV公開

日本郵便で公開されている郵便番号データは

「全角となっている町域部分の文字数が38文字を越える場合、また半角となっているフリガナ部分の文字数が76文字を越える場合は、複数レコードに分割しています。」

加工してやれば、分割データをマージすることは出来ますが、マージ後のデータを得るにはそれなりの時間が掛かります。

こんな加工済みデータでも、誰かの役に立てばと思い、データを公開しました。
サイトのMerge_Zip.CSVをクリックすると、読み仮名データが半角カタカナで促音・拗音を小書きで表記する全国版の郵便番号データをダウンロードして頂けます。

今のところは、5月31日のデータですが、毎月月初には最新版に更新していく予定です。

2015年3月 5日 (木)

やっと町域の読み仮名分離完成

30,000件中10件ほどだったのですが、スペースで区切られた町域の読み仮名(スペースなし)を正確に分離できていないことが判り、修正を進めていました。

ようやく、全件正しく分離できるところまで、修正が完了しました。
とはいっても、現状のデータでとの前提付です。

他に急ぎでやらなければいけない事が溜まってしまっているので、郵便番号データの住所データ化は10日間ほど作業中断です。

サイトの更新もしないといけないのですが、それも急ぎの作業が終了後になります。

問題が起きていたのは、ローマ字表記の読み仮名に"O O"、"O U"が含まれるデータです。
殆どの問題は、"O O"、"O U"を含まないレコードを使うことで回避できたのですが、
"O O"、"O U"を含むレコードしか使えないデータも有り、特例的な対応をしています。

今後についても、"O O"、"O U"を含むレコードしか使えないデータが発生した場合、特例的な対応を追加する必要が有ります。

そのあたりは、サイト更新時に明記するようにいたします。

2015年2月 1日 (日)

サイト再開しました。

結果に自信が持てなくなって、一旦は閉鎖した郵便番号データの住所入力データ化のサイトですが、暇を見つけては、修正と確認を繰り返していました。

まだ、中途半端ですが、町域データのスペース区切りでの町域と地名の分離に目途が着きましたので、サイトを再開しました。

自分なりに、自信が持てる処までの公開ですので、まだ完結はしていません。

今後も、自信が持てるようになったら、順次公開していきます。

とはいえ、専門的な教育は受けておらず、独学で、拙いアルゴリズム、洗練とは程遠いスクリプトです。

ご指摘、御教示を頂ければ、理解できる範囲で修正をしていきたいと存じますので、よろしくご鞭撻をお願いいたします。

サイトは、以前と同じアドレスです。

http://www.anocora.com/jyusyoData/jyusyo.html

2015年1月30日 (金)

一致しない住所データ

ローマ字版で、スペースで区切られた住所データの分離作業中ですが、ローマ字版に有って、カナ版にはないデータを見つけました。

Fuichi

ローマ字版の方が、データのメンテナンスが遅れるのでしょうか?

2015年1月27日 (火)

郵便番号データ(ローマ字版)表記の揺れ

ローマ字版のデータを基に、町域データのスペースでの分離作業中ですが、動作検証中にこんなデータを見つけてしまいました。
Kawanakajima_3
長野県長野市の川中島町の読み仮名が1件だけ,KAWANAKAJIMACHOになっています。
他はKAWANAKAJIMAMACHIです。どうやって対処するか検討中です。

ローマ字版で見つけたのですが、カナ版も同様の表記になっています。
Photo

ちなみに、GoogleMAPでは川中島町若葉町は検索しても表示されませんでした。

*2016.05.19追記
川中島町四ツ屋と川中島町上氷鉋にまたがって、若葉町の表記が有りました。
古くは、町域として独立していて、今でもその表記を使う人がいて、郵便番号が消去されずに残っているのでしょうか?
郵便物の実情に合わせてデータが保存されているとなると、今の住所表記と異なるデータがあるのかもしれません。

より以前の記事一覧

その他のカテゴリー

1980年代カンパアセンブルロード車 | 24インチロングホイールベース車 | Access 業務管理 | ANTALES | BS LittleFriend | BS SUBNADE SPORT | CB-700C クロスバイク | CULTURE L710 | DIGNO F | DIY | e-コアフィットインシステム | GIANT ロード オーバーホール | GRAPHIS GR-001J | J:COM障害 | KHS F-20R | LN-3922C | My Road Racer | OCS(セレクター)BB | Panasonic Hurryer | RakuMatic | SPECIALIZED GLOBE | VB.net 業務管理 | お墓の引っ越し | ちょっと変わった自転車 | まちなか探検 | やぐら返し | アット@ランプ | エンド精度測定レーザー照準 | カセットフリー | ガチャリンコ互換錠 | ギヤ交換可能な軽快車リアハブ | グルメ・クッキング | ココログ画面カスタマイズ | サドル張替え | サンヨー エナクル | シティクロス作成 | シティ車のメンテナンス | シンコー SR154(JETDAAIii NEUE) | スクーター チューブレスバルブ交換 | スタンド | スポークカット | スライム(パンク防止・修理剤) | タイヤの空気圧 | ドイツ製?軽快車 PEGASUS | ハブダイナモ | バルブ根元パンク | バンドブレーキの鳴き対策 | パッチ・チューブ割れ | パッチ割れ | パナソニック ガチャリンコ 付きジャンク | ピナレロ DOGMA F8 & DA Di2 | フライス盤 DRO化 | フライス盤据付 | フライス盤架台 | フライス盤購入 | ブレーキ | ブロックダイナモ | ペット | ホームページの修正 | ローラーブレーキ | 住まい・インテリア | 住所基盤データベース | 働く自転車の製作 | 太陽光発電の検討 | 日記・コラム・つぶやき | 旧車(シティ車)整備 | 異物パンクコレクション | 籐装飾自転車 | 自転車 探検! サイト複製 | 自転車出張修理 | 自転車技士・安全整備士受験(全般) | 自転車技士・安全整備士受験(学科) | 自転車技士・安全整備士受験(実技) | 自転車組立治具 | 英式米式兼用バルブアダプター | 詐欺メール | 調理 | 軽快車にShimano105アセンブル | 郵便番号データの住所入力データ化 | 金属加工 | 長寿命虫ゴムの検討 | 電動アシスト三輪自転車 | 電動バイク | 26インチ中古自転車 | KAINZ パンクしにくいクロスバイク

スライム(パンク防止・修理剤)被害低減プロジェクト

川越市周辺の自転車屋MAP

埼玉県内出張修理店情報

カテゴリー

川越市自転車シェアリング

Active Safety Project

雨雲

無料ブログはココログ

最近のトラックバック

ブログランキング