使用python写爬虫的方法-创新互联

创新互联www.cdcxhl.cn八线动态BGP香港云服务器提供商,新人活动买多久送多久,划算不套路!

成都创新互联公司自2013年起,是专业互联网技术服务公司,拥有项目成都网站建设、网站建设网站策划,项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命,1280元姜堰做网站,已为上家服务,为姜堰各地企业和个人服务,联系电话:028-86922220

这篇文章主要介绍了使用python写爬虫的方法,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。

用python写爬虫的流程和思路如下,有需要的小伙伴可以借鉴..

1. 整体思路流程

通过URL获取说要爬取的页面的响应信息(Requests库的使用)

通过python中的解析库来对response进行结构化解析(BeautifulSoup库的使用)

通过对解析库的使用和对所需要的信息的定位从response中获取需要的数据(selecter和xpath的使用)

将数据组织成一定的格式进行保存(MongoDB的使用)

通过对数据库中的数据进行筛选和组织,进行数据可视化的初步展示(HighCharts库的使用)

2. 简单代码演示

 准备工作

下载并安装所需要的python库,包括:

requests库:用于向指定url发起请求

BeautifulSoup库:用于解析返回的网页信息

lxml库:用于解析网页返回结果

pymongo库:用于实现python对MongoDB的操作

3. 对所需要的网页进行请求并解析返回的数据

对于想要做一个简单的爬虫而言,这一步其实很简单,主要是通过requests库来进行请求,然后对返回的数据进行一个解析,解析之后通过对于元素的定位和选择来获取所需要的数据元素,进而获取到数据的一个过程。(更多学习内容,请点击python学习网。)

一个简单的网络爬虫示例

import requests
from bs4 import BeautifulSoup

#58同城的二手市场主页面
start_url = 'http://bj.58.com/sale.shtml'
url_host = 'http://bj.58.com'
#定义一个爬虫函数来获取二手市场页面中的全部大类页面的连接
def get_channel_urls(url):
    #使用Requests库来进行一次请求
    web_data = requests.get(url)
    #使用BeautifulSoup对获取到的页面进行解析
    soup = BeautifulSoup(web_data.text, 'lxml')
    #根据页面内的定位信息获取到全部大类所对应的连接
    urls = soup.select('ul.ym-submnu > li > b > a')
    #作这两行处理是因为有的标签有链接,但是却是空内容
    for link in urls:
        if link.text.isspace():
            continue
        else:
            page_url = url_host + link.get('href')
            print(page_url)

感谢你能够认真阅读完这篇文章,希望小编分享使用python写爬虫的方法内容对大家有帮助,同时也希望大家多多支持创新互联,关注创新互联-成都网站建设公司行业资讯频道,遇到问题就找创新互联,详细的解决方法等着你来学习!


分享名称:使用python写爬虫的方法-创新互联
URL地址:http://myzitong.com/article/hsejc.html