博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
正怎表达式在爬虫里的应用
阅读量:5172 次
发布时间:2019-06-13

本文共 1160 字,大约阅读时间需要 3 分钟。

爬虫小例子:

]

import refrom urllib.request import urlopendef getPage(url):   # 获取网页的字符串    response = urlopen(url)    return response.read().decode('utf-8')def parsePage(s):    ret = com.finditer(s)  # 从s这个网页源码中 找到所有符合com正则表达式规则的内容 并且以迭代器的形式返回    for i in ret:        yield {            "id": i.group("id"),            "title": i.group("title"),            "rating_num": i.group("rating_num"),            "comment_num": i.group("comment_num"),        }def main(num):  # 0  25 50  # 这个函数执行10次,每次爬取一页的内容    url = 'https://movie.douban.com/top250?start=%s&filter=' % num    response_html = getPage(url)   # response_html就是这个url对应的html代码 就是 str    ret = parsePage(response_html) # ret是一个生成器    print(ret)    f = open("move_info7", "a", encoding="utf8")    for obj in ret:        print(obj)        data = str(obj)        f.write(data + "\n")    f.close()com = re.compile(        '
.*?
.*?
(?P
\d+).*?
(?P.*?)</span>' '.*?(?P
.*?)
.*?(?P
.*?)评价
', re.S)count = 0for i in range(10): main(count) count += 25
View Code

 

转载于:https://www.cnblogs.com/li-123-peng/p/9493510.html

你可能感兴趣的文章
编译原理 First,Follow,select集求法
查看>>
iOS开发 runtime实现原理以及实际开发中的应用
查看>>
android 学习资源网址
查看>>
qt安装遇到的错误
查看>>
java:Apache Shiro 权限管理
查看>>
objective c的注释规范
查看>>
FreeNas安装配置使用
查看>>
Django(一)框架简介
查看>>
Python操作SQLite数据库的方法详解
查看>>
菜单和工具条(二)
查看>>
hadoop17---RPC和Socket的区别
查看>>
使用JMeter代理录制app测试脚本
查看>>
Linq to Object实现分页获取数据
查看>>
mac常用系统命令
查看>>
android上传文件到服务器
查看>>
我回答了90%的面试题,为什么还被拒?
查看>>
Html - Table 表头固定和 tbody 设置 height 在IE不起作用的解决
查看>>
HDU 2262 回溯算法 递归枚举
查看>>
九度0J 1374 所有员工年龄排序
查看>>
微信小程序图片使用示例
查看>>