利用python对58同城西安本地服务分类提取-白红宇

利用python对58同城西安本地服务分类提取

阅读量：6880 次

发布时间：2019-06-26

本文共 2266 字，大约阅读时间需要 7 分钟。

58同城其分类信息的信息有几大类，然后大类下面有一些小类信息，其中的html代码如下：

则可以使用以下的正则表达式进行信息的提取，并将一类的名称和下面的小类进行分组获取：


    
     [\S|\s]*?([\s|\S]*?
     
      (.*))[\S|\s]*?
      
       ([\S|\s]*?)[\S|\s]*?

接着对下面的小类进行正则表达式提取，得到的是一系列的<a ..>..</a>:


    
     ([\S|\s]*?)

接着对<a ...>..</a>里面的小类的名称进行提取：


    
     ([\s|\S]*?)

最后输出就得到所有的分类信息，运行结果如下：

家政服务 {[搬家居民搬家小型搬家空调移机长途搬家搬运],[保姆/月嫂钟点工保姆陪护月嫂育婴师/育儿嫂养老院],...}

详细的代码如下：

# -*- coding: utf-8 -*-  import urllib.requestimport redef  output(file,content):        with open(file,'a') as output_:               output_.write(content)               output_.close()def parse(text,pattern):    p=re.compile(pattern,re.IGNORECASE)    return p.finditer(text)def segment_parse(segment):    m=parse(segment,'
    
     ([\S|\s]*?)')    for i in m:            print('[')            output('C:\\Users\\Andy\\Desktop\\classification.txt','[')            m1=parse(i.group(1),'
     
      ([\s|\S]*?)')            for i1 in m1:                        print(i1.group(1))                        output('C:\\Users\\Andy\\Desktop\\classification.txt',i1.group(1)+',')            print('],')            output('C:\\Users\\Andy\\Desktop\\classification.txt','],')def parse_doc(html):    m=parse(html,'
      
       [\S|\s]*?([\s|\S]*?
       
        (.*))[\S|\s]*?
        
         ([\S|\s]*?)[\S|\s]*?')    for i in m:        print(i.group(2),'{')        output('C:\\Users\Andy\\Desktop\\classification.txt',i.group(2)+'{')        #print(i.group(3))        subclassification=i.group(3)        segment_parse(subclassification)        print('},')        output('C:\\Users\\Andy\\Desktop\\classification.txt','}')def main():    response=urllib.request.urlopen("http://xa.58.com/huangye/?    from=58_shouye_huangye&utm_source=market&    spm=b-31580022738699-me-f-824.bdpz_biaoti&    PGTID=0d100000-001e-3e90-625c-90387953a654&ClickID=2")    codec =response.info().get_param('charset','utf8');    html=response.read()    html=html.decode(codec)    parse_doc(html)if __name__ == '__main__':    main()