人人都能学会的数据抓取(爬虫)课

二、

Excel打开CSV文件乱码的解决方案:

乱码方案

Mac用户的Excel没有抓取功能,替代方式在这里。

1)https://www.youtube.com/watch?v=iMO4Shnj1kI

2)http://www.dummies.com/software/microsoft-office-for-mac/excel-for-mac/using-a-web-query-to-load-tables-in-excel-2011-for-mac/

3)https://answers.microsoft.com/zh-hans/msoffice/forum/msoffice_excel-mso_other/excel-for-mac-2016/e21e464a-5b34-40e3-b744-050d11ab4dbc

三、

Web Scraper插件

  1. 可以用外网的同学通过官方渠道
  2. 无法用外网的同学通过链接
  3. 打开链接(可能要刷新几次),点击 Download extension可以下载一个crx文件。百度网盘链接:http://pan.baidu.com/s/1pKUvbyN   ; 密码:idqg
  4. 神秘代码下载地址

网址无法复制,请点网盘链接下载网址文件:神秘代码链接

【作业】

1、抓取老黄的所有知乎回答标题(也可以抓自己的)

https://www.zhihu.com/people/huangyoucan/answers

2、抓取三节课的全部445篇推文的标题

http://weixin.sogou.com/weixin?type=2&ie=utf8&query=%E4%B8%89%E8%8A%82%E8%AF%BE&tsn=0&ft=null&et=null&interation=null&wxid=oIWsFt7aF7RsVvvQJdjGmS52uhAM&usip=%E4%B8%89%E8%8A%82%E8%AF%BE&from=tool

3、豆瓣top100电影标题

https://movie.douban.com/top250

四、

作业:

1、2017年新上市公司的招股说明书

http://www.cninfo.com.cn/cninfo-new/fulltextSearch?code=&notautosubmit=&keyWord=%E6%8B%9B%E8%82%A1%E8%AF%B4%E6%98%8E%E4%B9%A6

2、麦淘某类目下明细,分析该类目总金额、平均客单价、Top10的路线

http://m.maitao.com/classify/null?ids=1

3、IT桔子某搜索结果下的各公司获得投资情况

https://www.itjuzi.com/search?key=%E4%BA%B2%E5%AD%90

五、

拓展阅读:

1)Everything 建站,让本地文件可以通过 127.0.0.1的方式访问

http://www.xp85.com/html/article-98-5415.html

2)Excel超链接公式,第一列为待采集网址,第二列为超链接公式生成的网址,复制第二列到word里并另存为html文件

http://jingyan.baidu.com/article/dca1fa6fade21ff1a5405268.html

3)改host,让某个域名指向本地的html文件

http://jingyan.baidu.com/article/9faa72317903f1473c28cb01.html

4)开心抓取

作业:

抓取老黄的所有知乎回答内容

https://www.zhihu.com/people/huangyoucan/answers?page=1

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注