python爬数据，得到一个列表，但怎样去掉里面的span标签

如题所述

第1个回答 2017-07-19

html = """
<span class='red'>item1</span>
<div>
<span id='s1'>item2</span>
</div>
"""
# 使用 scrapy 的Selector
from scrapy.selector import Selector

# scrapy 的选择器支持 css和xpath选择。下面是css选择器。如果你了解前端JQuery的知识，
# 会发现
Selector(text=html).css('span::text').extract()
# 输出 : ['item1','item2']
Selector(text=html).css('span#s1::text').extract()
# 输出 : ['item2']
Selector(text=html).css('div>span::text').extract()
# 输出 : ['item2']

# 使用bs4
from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
sl = soup.find_all("span")
result = [span.get_text() for span in sl]
print(result)
# ['item1', 'item2']

相似回答

用python爬虫怎么用正则表达式,切分<span></span>标签视频时间 08:11

关于python的使用xpath怎样获取如下内容?答：所以我能想到的方法有两种:一种是在提取前使用js将span标签给去掉, 然后就能使用提取value标签的相关xpath得到题主想要的了;另一种是先将含有span标签的value标签内容提取出来, 然后用正则表达式将span标签给去掉;--- 如果上面两种方法满足题主的需求,请题主追问说明所用的语言和库,我再补充.=== 希望...

python如何只获取某个标签内容但不获取其下的子标签内容?答：re.findall('\d+\.\d+',a,re.S)

python 爬虫提取span文字?答：xpath('//span/text()')就直接所有span下文字的列表

python+selenium3怎么取出span标签中的内容答：使用正则，引入re包 import restr1 = '<span data-reactid=".2.1.$550127.0.1.0.0.0.0.0.1">200</span>'result = re.findall(r'<span data-reactid=".2.1.\$550127.0.1.0.0.0.0.0.1">(\d+)</span>', str1)print(result)...

用Python正则替换HTML中pre标签里面的特殊符号答：一共就7个符号，就写7行替换吧。用不用正则无所谓，不多。不用正则也行，网页parse后，innerText输出的就是正常文本，innerHtml输出的才是你说的这种有特殊符号的内容。

大家正在搜

python怎么爬终端的数据 python爬虫怎么找数据 python爬虫爬取网页所有数据 python爬虫爬取天气数据 python爬虫数据如何用python爬取数据 python自动搜索爬数据 python爬虫获取数据 python爬一个网页内容