Java学习者论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

恭喜Java学习者论坛(https://www.javaxxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,购买链接:点击进入购买VIP会员
JAVA高级面试进阶视频教程Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java架构师3期(课件+源码)

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

深度学习(CNN RNN GAN)算法原理

Java亿级流量电商系统视频教程

互联网架构师视频教程

年薪50万Spark2.0从入门到精通

年薪50万!人工智能学习路线教程

年薪50万!大数据从入门到精通学习路线年薪50万!机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程 MySQL入门到精通教程
查看: 624|回复: 0

[框架技术] 爬虫搜索基础篇(四)

[复制链接]

该用户从未签到

发表于 2015-11-25 16:46:58 | 显示全部楼层 |阅读模式
上面所说所讲的都是一点的基础的知识,如今我就列一点比较常见的限制形式,怎么样打破这些个限制,而去抓取数值。
.Basic Auth
普通会有用户权力委托的限制,会在headers的Autheration字段里要求参加;
.Referer
一般是在访问链接时,一定要带上Referer字段,服务器会施行证验,例如抓取淘宝的评价;
.User-Agent
会要求真实的设施,假如不加会用编程语言包里自有User-Agent,可以被鉴别出来;
.Cookie
普通用户在登录或是某些操作后,服务端会在回返包中里面含有Cookie信息要求浏览器设置Cookie,没有Cookie会很容易被鉴别出来是假造请求;也有本地经过JS,依据服务端回返的某个信息施行处置生成的加密信息,设置在Cookie里边;
.Gzip
请求headers里边带了gzip,回返有时会是gzip压缩,需求解压;
.javaScript加密操作
通常来说,在请求的数值包内部里边会含有一点被javascript施行加密限制的信息,例如新浪微博会施行SHA1和RSA加密,SHA1加密会执行两次,而后送出的password和用户名都会被加密;
.其它字段
由于http的headers可以自定义地段,所以第三方有可能会参加了一点自定义的字段名字还是字段值,这也是需求注意的。
真实的请求过程中,实际上完全不止以上这几种限制,有可能是几种限制组合在一起,譬如若是大致相似RSA加密的话,有可能先请求服务器获得Cookie,而后再携带Cookie去请求服务器拿到公钥,而后再用js施行加密,再送出数值到服务器。所以弄明白这那里面的原理,关键是需要有耐心和恒心。



刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|Java学习者论坛 ( 声明:本站资料整理自互联网,用于Java学习者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

GMT+8, 2024-4-19 12:14 , Processed in 0.445622 second(s), 48 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表