Last updated:
0 purchases
pcacode 1.0.5
pcacode
这是一个从文本中找地名信息和地区码的库
安装
pip install pcacode
使用方法
1.基础使用:
from pcacode import pcacode
pca = pcacode()
info = pca.get_info(province='北京',content='朝阳区')
print(info)
结果:[('北京市', '直辖市', '朝阳区', '110105')]
说明:
province 为省名称,已做了模糊处理,测试版必须带,带上有助于提高效率和精度。
content 为内容 ,内容随意只要包含市/区县信息会自动提取
2.一些初始化技巧:
from pcacode import pcacode
pca = pcacode(file_page=u'data/2020年11月中华人民共和国县以上行政区划代码.xlsx',
nations_file=u'data/56_nations.xlsx',
switch_data={},
dict_data={})
说明:
file_page:地区码数据文件路径
数据来源于 民政部 整理成了xlsx 格式可以查看data目录下面的2020年11月中华人民共和国县以上行政区划代码.xlsx文件,可以替换成自己的文件(注意,清除xlsx文件中的空格)
需要替换时:
file_page=u'you_file_path/you_file.xlsx'
nations_file:民族数据文件路径
用于处理少数民族 自治区自治州名称使用,不建议改动,你也可以改为自己的名族文件库,详细请参看data下面的56_nations.xlsx文件
需要替换时:
nations_file=u'you_nations_file_path/you_nations_file.xlsx'
switch_data :替换省名简称(只能新增省的简称)
目前已经默认可以不带 '省','市'
自治区也可以自动识别
需要替换时:
switch_data={'京','北京市','沪','上海市'}
dict_data :替换地区码信息
地区吗经常变动,每次维护地区码表很麻烦,在这里提供一个临时方案
需要替换时:
dict_data={'330205':'江北区'}
3.存在的问题(下个版本处理)
1.必须是全称才能处理
例如:
北京市 朝阳
提取结果:
[('北京市', '北京市', '北京市', '110000')]
下个版本优先解决这个问题
2.自治州简称目前暂未处理
例如:
延边朝鲜族自治州
恩施土家族苗族自治州
分别简称为 延边 恩施的暂时无法处理 只能处理全称
详细信息请查看百度百科:自治区
3.自治县简称目前暂未处理
例如:
围场满族蒙古族自治县
丰宁满族自治县
分别简称为 围场 丰宁的暂时无法处理 只能处理全称
详细信息请查看百度百科:自治县
4.下个版本更新计划
增加不需要省名称的提取方式
增加城市名称模糊处理的方式
丰富函数的返回类型和模式
致谢
感谢袁隆平先生和钟南山先生,让我医食无忧。
尾声
只有无知,没有自满
For personal and professional use. You cannot resell or redistribute these repositories in their original state.
There are no reviews.