正则表达式如何提取html标签里面的内容

<p><strong><br>Rufus</strong><br>Dan, Jenny! Over here! </p>
<p><strong>Jenny</strong><br>Hey, dad! </p>
<p><strong>Rufus</strong><br>Hey, hey! You made it. Welcome back! How was your weekend? How was your mom? </p>
像这个里面的 rufus，jenny 。怎么提出来
高分求。急用

举报该问题

推荐答案推荐于2018-03-13

只提取rufus，jenny？不行吧。没有规律啊。是把所有的标签内内容提取了吧。

如果是提取标签内的话这么写：
        Pattern pattern = Pattern.compile(">([^<]+)<");

Matcher macher =
pattern.matcher("<p><strong><br>Rufus</strong><br>Dan,
Jenny! Over here!
</p><p><strong>Jenny</strong><br>Hey, dad!
</p><p><strong>Rufus</strong><br>Hey,
hey! You made it. Welcome back! How was your weekend? How was your mom?
</p>");

        while (macher.find())
        {
            System.out.println(macher.group(1));
        }

打印结果：
Rufus
Dan, Jenny! Over here!
Jenny
Hey, dad!
Rufus
Hey, hey! You made it. Welcome back! How was your weekend? How was your mom?

麻烦采纳我的答案吧，(*^__^*) 嘻嘻……

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/siinnpDUs.html

其他回答

第1个回答 2017-10-13

function getStr(id,str){
var p = document.getElementById(id);
var text = p.innerHTML;
return text.substring(text.indexOf(str),text.indexOf(str)+str.length);
}
alert(getStr('p1','Rufus'))
//我给第一个p元素加了一个id，是p1，其他的三个也是这样提取出来的。换个id，换个字符就行了。这是不完整的提取字符的方法。如果想较为完整一些，可以在里面加一个判断语句，如果你所搜索的字符不存在，返回一个错误或者警告什么都可以。
//我没有使用正则，根本不需要正则就可以解决了。

第2个回答 2013-09-03

你的标签貌似不太规则吧 <p><strong><br>Rufus</strong><br> 乱嵌呀

public void strong()
{
  int i = 0;
  final String regex = "<strong.*?/strong>";
  final Pattern pt = Pattern.compile(regex);
  final Matcher mt = pt.matcher(ContentArea);
  while (mt.find()) {
   System.out.println(mt.group());
   i++;

   // 获取标题
   final Matcher title = Pattern.compile(">.*?</strong>").matcher(mt.group());
   while (title.find()) {
    System.out.println("strong是:"
      + title.group().replaceAll(">|</strong>", ""));
  }
   System.out.println();
  }


  public static void main(String[] args)
{
  Urls myurl = new Urls("<body", "/body>");
  myurl.getStartUrl("...");//网址
  myurl.getUrlContent();
  myurl.getContentArea();
  myurl.strong();
}

本回答被网友采纳

第3个回答 2015-03-19

$str="<li><a href='xxx' target=\"_blank\">yyy</a><div class=\"i1\"></div><i>zzz</i></li><li><a href='xxx1' target=\"_blank\">yyy1</a><div class=\"i1\"></div><i>zzz1</i></li>";
$pattern='/<li><a[^>]+href=\'([^\']*)\'[^>]*>([^<]*)<\/a>.*<i>([^<]*)<\/i><\/li>/iUs';
preg_match_all($pattern, $str, $matches);
print_r($matches);

看下可以不，解析出来的数组应该知道怎么解吧！

第4个回答 2017-08-26

思路：先解析html文件，可以用digester等第三方包。
想直接用正则表达式，不建议。
正则用的更多是校验格式，例如邮箱格式等。

1 2 下一页

相似回答

如何使用java的正则表达式提取html标签答：publicclassTest{ publicstaticvoidmain(Stringargs[]){ Stringhtml="<title>ABCD</title>gsdggas<title></title>jkll<title>005</title>";//简单示例，相当于Stringhtml=getHtml(StringurlString);ListresultList=getContext(html);for(Iteratoriterator=resultList.iterator();iterator.hasNext();){ ...

如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件...答：您好，您这样：提取链接的标签文本和url地址将Html文件代码传入string参数s，代码如下：private void Reg_A_Href(string s){ string str = s;Regex re = new Regex(@"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>(?<text>...

php正则表达来获取html中的部分内容答：说明：int preg_match ( string pattern, string subject [, array matches [, int flags]] )在 subject 字符串中搜索与 pattern 给出的正则表达式相匹配的内容。返回值0或1。（3）preg_replace -- 执行正则表达式的搜索和替换（4）preg_split -- 用正则表达式分割字符串 2. 一般来说，如果...

用正则表达式 取出html文件中的加粗的文字和文件中的超链接答：String str = "加粗字一般是在<h1>..</h1>中间的超链接一般以http：//...开头";String reg1 = "(?i)<h1[^>]*>((?!<\\/h1>)[\\s\\S])*)<\\/h1>";String reg2 = "(https?:\\/\\/)?([\\da-z\\.-]+)\\.([a-z\\.]{2,6})([\\/\\w\\x20\\.-]*)*\...

求正则表达式,怎么获取HTML页面内容?答：<script type="text/javascript">$(function(){var $content = $("li:first").find("a").find("font").html();//这是获取出来的内容var $time = $("li:first").find("span:last").html();//这是获取出来的的时间var $href = $("li:first").find("a:last").attr("href");/...

java正则表达式获取任意两个html标签中的内容?答：{ public static void main(String []args) { String content=获取的网页内容;Pattern p=Pattern.compile("<div class=\"fliter_px\">([\\s\\S]+?)<div class=\"search_page\">");Matcher m=p.matcher(content);if(m.find()){ System.out.println(m.group(1));} } } ...

大家正在搜

正则匹配html标签中的内容在标签中写正则表达式正则匹配html标签 js正则排除html标签正则表达式截取 python用正则爬取一个标签正则去除html标签正则提取html文本正则提取html