java中jsoup解析爬虫获取的页面html数据,轻松实现一个爬虫
原创 2019-11-05 16:16 阅读(2962)次
最近在找工作,看看各大人才网上的工作岗位,搜索了一下自己住所附近的工作,搜索功能好像对地址搜索不是很友好,于是自己想爬一下各大人才网上的数据,以便自己好搜索,并不商用也不开放数据,话说最近反爬虫很严啊,不过想来自己只是爬取公开的数据,并且不会影响目标网站的正常运行,应该是没事的,这里也希望大家遵守爬虫协议。jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据以某人才网为例,把他的搜索地址中的搜索词和页码动态传入参数,用Jsoup解析dom就可以把想要搜索的岗位数...
Blocked a frame with origin http://localhost:8070 from accessing a cross-origin frame
原创 2019-06-25 10:01 阅读(10176)次
在使用Ueditor编辑器做上传服务时,因为上传服务图片的服务器与页面的服务不是同一个,涉及跨域问题,我在服务端已经设置好支持跨域的情况下,在上传时报了如下错误:Blocked a frame with origin "http://localhost:8070" from accessing a cross-origin frame不过Ueditor并没有把这个错误打在控制台上,是我调试代码发现他try catch掉了。如下图:然后上面代码还显示了Ueditor使用了表单提交上传的文件,我百度了一下发现现在Ueditor表单上传并不支持跨域。实际上上传是成功了,只是页面拿...
html页面中原样输出xml/html标签的几种方法
原创 2018-01-15 17:49 阅读(3242)次
有很多时候,我们需要在页面中原样输出xml或者html标签,例如技术博客里的代码,配置文件等都有标签,如果直接写成如:<xxx>文字</xxx>写成上面这样的内容,输出在html页面中时,就会当成标签渲染掉了,页面中只显示'文字'两个字,看不到<xxx>文字</xxx>原样输出,如果想达到原样输出他们,有几种方法:1.使用<pre></pre>标签,把要输出的标签放在它里就可以原样输出了,html编辑器里的插入代码功能,就是用它来做到的2.使用<xmp></xmp>标签,同上3.转义,把<和&...