手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜的Vultr , 注册 | 登陆
浏览模式: 标准 | 列表分类:Ideas

之前写的一个关于抓西南航空的示例和方案

下面只是一个简单的示例和步骤

1、 首页查询OMA->OGG,点击搜索,会进入结果页,默认显示为第二天的价格,点击日期可以看到每天的价格 

2、 这时候的数据有两种获取方式 
    a) 请求API,通过浏览器生成的header头来请求,可以用webdriver模拟,速度较慢,但请求一次之后,可以得到API的数据。后续可以用这个API方式来模拟请求 
    b) 点击页面后,数据存储在sessionStorage中,通过解析sessionStorage来获取时间和价格 
3、 在route map页面,任意选择两个地点,只要能够到达,基本上都是通过API来获取数据 
---时间较短,没有细弄,现有的数据均通过python+selenium (with chrome)来获取。
 
针对2.1的方法,因为不可能一直使用chrome来抓取数据这样效率太低了,现在是做了一个测试,是可以通过加载chrome的prefLog,从LOG里找到请求/shopping的数据(也就是首页点击search以后的实际请求)。将对应的参数全部拉取出来。再使用python的Requests进行模拟请求,以获取实际的json数据。
 
后续又重新拉取了一份:直接将请求第二页的数据拉出来:
 
即,这些数据就是请求 json的结果,数据首次返回的时候是存在sessionStorage,结果如下:
 
看起来并没有太复杂的,但其实确实是踩坑不少,比如,你如果是直接用selenium来请求,就会被判非法、IP地址不太正常的情况被判非法、请求速度过快被判非法、直接请求页面也被判。
也是在经历了1天多之后,才相对比较稳定的抓取了指定线路的数据,后面因为被人嘲笑说就这?然后想想就放弃了,没必要,又不是靠这个吃饭,贴一下做个记录
 

2号来发1号的感想:壮哉,我的国

看完了国庆阅兵,只能感慨的说上这么一句:壮哉,我的国

 
补两句这两天朋友圈看到的,大意如下:他们10来岁就知道自由民主,却不知道袭警是违法行为。
再加上看完国庆阅兵,真是可以说:别看现在闹的欢,就怕将来拉清单(copy from 《闪闪的红星》)
 
 

yzhan.com 居然只能做个人站

 不是不想转成公司,但实在太麻烦了。还好几乎所有的业务都是朋友介绍的。所以个人不个人感觉也无所谓

 
如果域名在个人,不能做公司站。如果是个人备案,不能放介绍性的东西。不能留固定电话,只能转成公司型的才可以。转成公司 型的吧。备案号就要注销重来。不知道这算是怎么个折腾法。苦逼
 
怪不得别人说:我给你讲个笑话,网站备案。现在公司的话还要公安备案。上次有个域名,我想备个案吧,结果 被退回来,说是。。。没有Www的网站不能备案。当时我就纳闷了。我只是用来给我自己的CSS和JS加速。。这怎么破
 
算了,先这样吧。反正也没啥业务。

感觉用了HTTPS,垃圾评论都比以前少了好多

如题,只是感觉而已。

ssldocker不能直接从http跳到https。纠结。最后还是用了nginx,不过nginx只用来跑80.
 
真是脱裤子放屁。直接nginx不就OK了吗?也算是偷懒吧,因为nginx只配置了一个rewrite 和error_page,加return 。就是不管3721,http的强跳https。然后https用ssldocker处理
没装acme和certbot。因为dns用了lightsail。。。感觉各种不顺便,反而ssldocker倒是能自动签名(除了泛域名)

关闭中国移动的高频防骚扰功能

 关闭中国移动的高频防骚扰功能了(当初开通是:KTFSR发到10086,取消是QXFSR到10086),电话确实少接了不少,但问题是,我也不知道哪些电话确实是骚扰电话了。更可恨的是,微信的客户验证那边的电话,个个都在高频骚扰电话里。


果然这种黑盒科技不适合我,我还是用安卓手机自带的防骚扰吧(因为当前的手机号码用了近20年了,所以当时在不同的场合留下的手机也不少,所以,只能用安卓手机,毕竟他自带的防骚扰功能比较OK。IOS则没有它完善)
 
 
Records:2212345