博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
使用ghost.py(webkit)来爬取网页
阅读量:6453 次
发布时间:2019-06-23

本文共 1806 字,大约阅读时间需要 6 分钟。

hot3.png

 

再次更新:ubuntu下安装pyside

sudo apt-get install python-pyside
sudo apt-get install python3-pyside

update:ubuntu pyside 安装  http://pyside.readthedocs.io/en/latest/building/linux.html

使用ghost.py(webkit)可以很方便爬取javascript接口等生成数据

ghost.py安装

第一步:安装PySide (ubuntu), centos下安装参照PySide官网(yum install qtwebkit qtwebkit-devel)sudo apt-get install cmakesudo apt-get install libqt4-devsudo apt-get install qt4-dev-tools   sudo apt-get install qtmobility-devsudo apt-get install python2.7-devsudo apt-get install libphonon-devpip install wheelwget https://pypi.python.org/packages/source/P/PySide/PySide-1.2.2.tar.gztar -xvzf PySide-1.2.2.tar.gzcd PySide-1.2.2python setup.py bdist_wheel --qmake=/usr/bin/qmake-qt4python pyside_postinstall.py -install第一步2: 如果在没有X的linux系统下使用ghost.py还需要安装 xvfbsudo apt-get install xvfbyum install xorg-X11-server-Xvfb用xvfb执行:xvfb-run --auto-servernum --server-args="-screen 0 1280x760x24"  python x.py第二步: 安装ghost.pypip install ghost.py

appannie 网站数据分析可知,游戏列表数据是javascript生成的,如果使用requests不能直接用 xpath 匹配, 用ghost.py可以很方便的使用 xpath

175557_PxQz_1047802.jpg

配合lxml使用爬取 appannie 网站的应用

# -*- coding: utf-8 -*-from ghost import Ghostimport lxml.htmlagent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36'ghost = Ghost(user_agent=agent, wait_timeout=120)ghost.set_proxy('socks5', '192.168.1.111', 1080)  # 使用socks5代理page, extra_resources = ghost.open('https://www.appannie.com/apps/google-play/publisher/20200000600489/?&page=2')ghost.wait_for_text('data-ref="main"', timeout=60)  # 等待网页的'data-ref="main"'出现html = lxml.html.fromstring(ghost.content)e = html.xpath('//*[@id="container"]/div[2]/div[2]/div/div[2]/div/div[2]/div[1]/div[2]/table/tbody')[0]  # for tr in e.getchildren():    print tr.getchildren()[3].text

 

 

 

转载于:https://my.oschina.net/1123581321/blog/411943

你可能感兴趣的文章
【SQL】关于无法附加文件的错误
查看>>
Linux中断(interrupt)子系统之二:arch相关的硬件封装层【转】
查看>>
在sd卡,创建目录和文件
查看>>
在博客中显示不走样的代码
查看>>
通用智能传感集线器(Sensorhub)介绍
查看>>
PowerDesigner生成Access数据库
查看>>
用RNGCryptoServiceProvider获取随机数
查看>>
你真的会玩SQL吗?透视转换的艺术
查看>>
POJ 1860 - Currency Exchange
查看>>
Hadoop-No.1之数据存储选型
查看>>
Android Service使用
查看>>
Qt Creator的配置和开发初步测试
查看>>
SQL SERVER2000 存储过程 设置传入参数默认值
查看>>
11.11. Bootstrap
查看>>
由system.currentTimeMillis() 获得当前的时间
查看>>
Nginx与Lua
查看>>
oracle易忘函数用法(6)
查看>>
视频云2017-12新功能更新
查看>>
java程序中没有错,但是项目上面显示一个红叉的解决办法
查看>>
Sql Server 2005 Express数据库导入导出功能的实现
查看>>