AG集团【真.热门】
销售热线:
0531-61345555


    产品中心


     当前位置:主页 > 技术文章 >
     
    鲲鹏Web数据抓取 - 专业Web数据采集服务提供商
     

      西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。

      您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

      数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

      近日某拨号服务器出现故障,不定期会自动重启。每次重启之后都要手动去启动VMware虚拟机,非常麻烦。如何实现开机自启动指定的VMware虚拟机呢?

      * 常规选项卡,安全选项选择“不管用户是否登录都要运行”。这一步很重要。

      注意要设置format参数,指定原始数据的时间日期格式。转换完成后可以查看dtypes属性确认,如附图1所示。参考:

      昨天同事随手给我发了两组他在项目中遇到的例子,很是受惊吓,HashDict用了快10年了,竟然没注意到这个Bug。

      (1)如附图1所示,下载的页面中有很多字符是乱码。左边是经过浏览器正确渲染的结果,右边是下载到的有乱码的数据。

      (2)经过分析发现,网站使用了自定义的字体文件:把常用的391个汉字做成了特殊字体,使用了自定义的unicode码。如附图2所示。这种字体混淆的反采集策略现在很常见了,之前曾在猫眼电影、汽车之家、58等网站都见到过。

      (3)经过深入分析发现,网站总共使用了10个自定义的字体文件(如图3所示),每个文件内的字符是一样的(都是那391个字符),但是相同的unicode码对应的字符是不一样的。如附图4所示,uni3075在3个字体文件中对应的字符分别是“悬”、“亲”和“田”。

      (4)突破这种策略的思路很简单,就是建立一个“unicode码-字符的映射表,然后将HTML中的这些乱码(unicode码)替换成明文即可。但是本例中有10 * 391 = 3910个字符,工作量太大了。

      (5)于是想到一个“偷懒”的方法:由于每个文件内都是那391个字符,我只手动建立一个映射表,其余的通过图片匹配自动建立。

      我把这个脚本放到了gist上“将字体文件内各字体导出图片存储,并建立一个Excel索引”()。

      如附图6所示,这个Excel文件也是上述脚本生成的,然后人工填入每个图片对应的明文字符,这样就建立好了一个字体文件的字符映射表。把这个表当做特征库表。

      (6)将其他9个字体文件中的图片也使用上述脚本导出,然后挨个和特征库对比(这里我直接通过像素值二维数组进行对比,将一致率最高的视为匹配),建立匹配关系,如图7所示。

      思路是先将querystring的key按从大到小排序,然后拼接成一个串,计算MD5后,再前后拼接上一个常量串(加盐),再次计算MD5。

      4. 另外,根据输入条码查询商品时,输入的barcode也被做了特殊处理。如图5所示。这里也调用了libgcbarcode_k.so中的native方法,conv()。

      今天有客户让评估新的需求,之前模拟浏览器的方式不太适合了,决定试着分析下它的解密算法。

      2. 通过/Interface/ptbk接口获取解密用的密码,这里要用的上一步返回的uniqid参数。如附图2所示。

      背景:永辉超市某版本APP的HTTP请求使用了签名参数保护机制,下面是分析该签名算法的过程:

      ESXi搭建的Ubuntu16.04虚拟机,添加了5块虚拟网卡,不同的网口桥接的不同的Bas。

      如图1和图2所示,同一块网卡00:0c:29:b0:17:21,在第一张图中被命名为eth4,但重启后在第二张图中却被命名为eth3。

      而拨号系统内不同的ADSL账号绑定着固定的网卡名称,如果eth号老是跳,就会拨到错误的Bas里,导致拨号失败。

      【经验分享】Nox(夜神模拟器)+ Android 4.4.2版本今天出现了一个很奇怪的问题,xposed-installer-2.6版本突然无法安装了(3月18日之前没有问题),提示信息如附图1所示(Xposed目前不兼容Android SDK版本19或者您的处理器架构)。更奇怪的是,我在其它6台机器上测试都是如此,绝不是个例。

      1. 首先想到的是,它偷偷更新了。于是尝试卸载重装Nox,但是问题依旧。看了下Nox安装目录下的文件和日志,也没见有更新的迹象。

      2. 会不会是在启动的时候通过网络动态加载了什么策略呢?于是尝试断掉网络,重建Nox 虚拟机,xposed-installer-2.6安装成功,在多台机器上做同样尝试,问题均解决。看来就是夜神模拟器做了手脚了。

      断网不是长久之计,于是决定深入分析下,用wireshark抓包,主要看DNS请求,发现Nox在启动的时候访问了如下的域名:

      附dnsmasq address.conf文件内容(如下),直接使用泛域名干掉所有的子域名,防止过滤的不够彻底:

      PS:为什么不直接修改hosts文件呢?一方面是机器比较多,一一设置比较麻烦,直接通过dhcp分配自定义的dns更方便。另一方面一些防护软件可能会保护hosts,设置了不一定有效。

      Squi默认定义了如下端口为安全端口,如果目标端口(例如本例中的81)不在其中将会被拒绝,返回403错误。


    上一篇:2021辽宁国家公务员考试申论技巧:文章写作如何       

    下一篇:技术文章
    Copyright©2015-2019AG集团版权所有                                       网站地图