背景以及其他适用范围
最近调研kaggle比赛的一些情况,因为比赛数据集往往很大,每次通过浏览器下载再上传到服务器是一件十分费力的一件事情,所以我想怎么用wget来直接进行下载。因为kaggle比赛是一个需要用户名登陆,以及含有各种协议的网站,如果不通过浏览器下载wget只会下载一个html的页面。
怎么通过模拟浏览器来下载这个数据集呢,我查了好多地方,发现wget有个参数 –load-cookies 可以模拟浏览器下载东西。
下载cookies
打开google浏览器More Tools->Extensions->More Extension, 进入Chrome Web Store下载一个插件cookies.txt.
安装完成以后打开该下载页面,就可以看到cookie文件
复制cookie信息到一个文件cookies.txt中,使用下面的命令就可以顺利下载了。
|
|
怎么使用python下载
|
|