博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
easyspider
阅读量:5124 次
发布时间:2019-06-13

本文共 1044 字,大约阅读时间需要 3 分钟。

# -*- coding: utf-8 -*-"""Created on Fri Aug 18 15:58:13 2017@author: JClian"""import reimport bs4import urllib.request  from bs4 import BeautifulSoup import urllib.parseimport syssearch_item = input("Enter what you want(Enter 'out' to exit):")while search_item != 'out':    if search_item == 'out':        exit(0)    print("please wait...")    try:        url = 'https://baike.baidu.com/item/'+urllib.parse.quote(search_item)        html = urllib.request.urlopen(url)          content = html.read().decode('utf-8')        html.close()        soup = BeautifulSoup(content, "lxml")          text = soup.find('div', class_="lemma-summary").children        print("search result:")        for x in text:            word = re.sub(re.compile(r"<(.+?)>"),'',str(x))            words = re.sub(re.compile(r"\[(.+?)\]"),'',word)            print(words,'\n')    except AttributeError:        print("Failed!Please enter more in details!")    search_item = input("Enter what you want(Enter 'out' to exit):")

 

转载于:https://www.cnblogs.com/sky-ai/p/9813126.html

你可能感兴趣的文章
Asp.Net Core 第05局:读取配置
查看>>
NanUI文档 - 如何实现C#与Javascript的相互通信
查看>>
iOS录音后播放声音变小的解决方法
查看>>
FatMouse's Speed hdu 1160(动态规划,最长上升子序列+记录路径)
查看>>
第二次作业重交
查看>>
2019 DDCTF 部分writeup
查看>>
javascript: Object对象生成URL参数
查看>>
mooc_java 集合框架中 学生所选课程2Map&HashMap
查看>>
为什么OC语言很难
查看>>
算法基础——列表查找
查看>>
js中 style.width与 offsetWidth的区别
查看>>
BZOJ 2242: [SDOI2011]计算器 [快速幂 BSGS]
查看>>
2018年高考游记
查看>>
K-D Tree 学习笔记
查看>>
JS-为金额添加千分位逗号分割符
查看>>
【转】系统缓存全解析二:动态缓存(2)-页面局部缓存的两种方式
查看>>
css笔记
查看>>
[IOI2018] werewolf 狼人
查看>>
BIEE 目录迁移(文件夹)方式
查看>>
超级强大的socket工具ss,替代netstat
查看>>