资源简介

批量将地址解析为百度地图经纬度坐标,需要自己申请AK,可以指定并发数量

资源截图

代码片段和文件信息

#coding=utf-8
import pymongo
from gevent.pool import Pool
import urllib.request
import json
import urllib.parse
import socket
from gevent import monkey
from parseSettings import *
import gevent
import time
import datetime
monkey.patch_all() #修改标准库
socket.setdefaulttimeout(2) 
class LocationParser(object):
#用于地址解析的类
def __init__(selfakbaseUrl):
self.ak = ak
self.baseUrl = baseUrl
def parse(selfaddressoutputcity=None):
#通过api获取json数据
url = self.baseUrl+“?ak=“+self.ak+“&address=“+urllib.parse.quote(address)+“&output=“+output
if city:
url = url + “&city=“+urllib.parse.quote(city)
try:
result = urllib.request.urlopen(url)
except:
print(“连接错误“)
return Noneurl
jsonresult = json.load(result)
return jsonresulturl

class LocationDumper():
def __init__(selfipportlocationDBlocationColsourceDBsourceColrequestNum = 10city = None):
#数据库连接
self.client = pymongo.MongoClient(ipport)
#地址解析器
self.bParser = LocationParser(akbaseUrl);
#并发数量控制
self.requestNum = requestNum
#带解析数据集合
self.sourceCol = self.client[sourceDB][sourceCol]
#用于存储结果的集合
self.locationCol = self.client[locationDB][locationCol]
self.oklength = 0
self.errorlength = 0
#用于解析每一条数据的方法
def parseData(selfdata):
#数据集中没有带解析的数据解析该条数据
if self.locationCol.count({“_id“:data[“_id“]}) <= 0:
if self.locationCol.count({“address“:data[“address“]}) > 0:
print(“同一地址不再解析“+data[‘address‘])
content = self.locationCol.find_one({“address“:data[“address“]})
a = {‘_id‘:data[‘_id‘]
                “size“:data[‘size‘]
                “orient“:data[‘orient‘]
                “roomNum“:data[‘roomNum‘]
                “url“:data[‘fromUrl‘]
                “unitPrice“:data[‘unitPrice‘]
                “sumPrice“:data[‘sumPrice‘]
                “ln“:content[‘ln‘]
                “lat“:content[‘lat‘]
                “address“:data[‘address‘]
                “time“:data[‘nowTime‘]
                “city“:data[‘city‘]}

self.locationCol.insert(a)
self.sourceCol.update({“_id“:data[“_id“]}{“$set“:{“status“:“OK“}})

return
result = self.bParser.parse(data[“address“]“json“data[“city“])
#根据返回码判断解析结果是否正确如果不正确去掉城市参数重试
if result[0] and result[0][‘status‘] != 0:
result = self.bParser.parse(data[“address“]“json“)
if not result[0]:
return
jsonResult = result[0]
urlResult = result[1]
ln = None
lat = None
if jsonResult[‘status‘] == 0:
ln = jsonResult[‘result‘][‘location‘][‘lng‘]
lat = jsonResult[‘result‘][‘location‘][‘lat‘]
else:
try:
print(“地址解析错误status:“+str(jsonResult[‘status‘])+“msg:“+jsonResult[‘msg‘]+“errorUrl:“+urlResult)
self.sourceCol.update({“_id“:data[“_id“]}{“$set“:{“status“:“ERROR“}})
self.errorlength += 1
except:
print(“没有错误信息直接输出信息“+str(jsonResult))
return
try:
a = {‘_id‘:data[‘_id‘]
“size“:data[‘size‘]
“orient“:data[‘orient‘]
“roomNum“:data[‘roomNum‘]
“url“:data[‘fromUrl‘]
“uni

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-12-08 00:14  parseModule\
     文件        4793  2017-12-15 08:55  parseModule\parse.py
     文件         104  2017-12-08 00:14  parseModule\parse.sh
     文件         370  2017-12-15 08:55  parseModule\parseSettings.py
     目录           0  2017-12-08 00:14  parseModule\__pycache__\
     文件         348  2017-12-08 00:14  parseModule\__pycache__\parseSettings.cpython-36.pyc

评论

共有 条评论