【教程】BeautifulSoup中使用正则表达式去搜索多种可能的关键字
crifan 12年前 (2013-04-19) 6892浏览 1评论
【背景】 折腾过基本的BeautifulSoup的人,知道,可以通过指定对应的name和attrs去搜索,特定的名字和属性,以找到所需要的部分的html代码。 但是,有时候,会遇到,对于要处理的内容中,其name或attr的值,有多种可能,尤其是符合...
crifan 12年前 (2013-04-19) 6892浏览 1评论
【背景】 折腾过基本的BeautifulSoup的人,知道,可以通过指定对应的name和attrs去搜索,特定的名字和属性,以找到所需要的部分的html代码。 但是,有时候,会遇到,对于要处理的内容中,其name或attr的值,有多种可能,尤其是符合...
crifan 12年前 (2013-02-01) 8640浏览 3评论
背景 在Python去写爬虫,网页解析等过程中,比如: 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站 常常需要涉及到HTML等网页的解析。 当然,对于简单的HTML中内容的提取,Python内置的正则表达式Re模块,就...
crifan 13年前 (2012-11-23) 7834浏览 5评论
【BeautifulSoup最简介】 BeautifulSoup,是Python中的一个第三方库,用于帮助解析Html/XML等内容,便于实现后期的内容提取等方面的工作。 BeautifulSoup官网地址:http://www.crummy.com...
crifan 13年前 (2012-10-25) 17749浏览 6评论
【问题】 python脚本,其中用到Beautifulsoup: from BeautifulSoup import BeautifulSoup,Tag,CData; 为了支持Python 3,所以去主页: http://www.crummy.com...
crifan 13年前 (2012-03-31) 2910浏览 1评论
此处不打算解释具体用法,因为官方主页中有说明: Beautiful Soup Documentation Beautiful Soup 中文文档 以及网上也有很多资料解释,具体是如何使用BeautifulSoup的。 此处只是记录,在使用过程中,遇到...
crifan 13年前 (2012-03-30) 6655浏览 0评论
【背景】 已从一个url中获得返回的json字符串: {"code":"A00006",data:"\t<li id=\"cmt_1932099\">...
crifan 13年前 (2012-03-30) 2156浏览 0评论
【问题】 如果包含: ... <!–[if lte IE 6]> ... <![endif]–> ... 字样,即其中包含 <!-[if xxx]> 和对应的 <![endif]-> 则解析出错...
crifan 14年前 (2012-01-09) 2397浏览 0评论
在用python脚本解析这个页面: http://benbenwo1091.blog.163.com/blog/static/26634402200842202442518/ 的时候,处理流程是用BeautifulSoup处理获取的页面后,调用: ...