C#.NET用正则表达式提取<span style="font-size: 14.0pt;font-family: 宋体;">泥料：原矿清水泥</span>中值

比较急，请高手指教。。。

推荐答案 2012-04-20

å¦ææ¯æï¼ä¸ä¼ç¨æ£åè¡¨è¾¾å¼æ¥åè¿ä»¶äºãåæDOMå¯¹è±¡ç»ææèåXSLæ ·å¼æ¿æ¢ä¼ç®åå¾å¤ã

æ£åè¡¨è¾¾å¼æ¯éªè¯ä¸ä¸ªåç¬¦ä¸²æ¯å¦æ¥ææç§ç¹å®çæ ·å¼ (Pattern)ï¼æ¯å¦çµåé®ä»¶å°åï¼é½ä¼æ@ï¼@åé¢é½æ¯xx.xxxæxx.xxx.xxxä¹ç±»ï¼ä½¿ç¨æ£åè¡¨è¾¾å¼å¯ä»¥çµæ´»åç²¾ç¡®å°æè¿°è¿ç§patternãæ¯å¦å¯¹çµåé®ä»¶å°åï¼å¯ä»¥æè¿°æï¼^([\w-]+\.)*?[\w-]+@[\w-]+\.([\w-]+\.)*?[\w]+$ï¼ççã

å®ä¸æ¯ç¨æ¥æ½ååç¬¦ä¸²çï¼è½ç¶éªè¯æ ·å¼å¾å¾æ¯æ¿æ¢ææ½ååç¬¦ä¸²çåä¸æ¥ã

å¦æä½ ä¸å®è¦ä½¿ç¨æ£åè¡¨è¾¾å¼ï¼æ éå°±æ¯ç¨
<span style="font-size:\s14\.0pt;font-family:å®ä½;">(.*?)</span>æ¾å°è¿ä¸ªtagï¼ç¶ååç¨åç¬¦ä¸²å¤çå¥åºä¸é´çæåã
å¦æstyleéé¢çåå®¹ä¸æ¯åºå®çï¼å¯ä»¥è¿æ ·æ¥æ¾ä»»ææ ·å¼ç<span>æ è®°
<\s*span[^>]*>(.*?)<\s*/\s*span>

å¦å¤ï¼æ³¨ææ±åéè¦ç¨4ä½ unicode 16è¿å¶ä»£ç æ¿æ¢ï¼æ ¼å¼å¦ï¼\u0020ã

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/DUnspxUss.html

其他回答

第1个回答 2012-04-21

出现乱码了，不知道你是什么意思，如果你是想从html文本中提取出纯文本的话，给你个方法你调用一下：

public string NoHTML(string Htmlstring)
{
//删除脚本
Htmlstring = Htmlstring.Replace("\r\n", "");
Htmlstring = Regex.Replace(Htmlstring, @"<script.*?</script>", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"<style.*?</style>", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"<.*?>", "", RegexOptions.IgnoreCase);
//删除HTML
Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);", "", RegexOptions.IgnoreCase);
Htmlstring = Htmlstring.Replace("<", "");
Htmlstring = Htmlstring.Replace(">", "");
Htmlstring = Htmlstring.Replace("\r\n", "");
//Htmlstring = HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();
return Htmlstring;
}

第2个回答 2012-04-24

提取'/span>' ? 那正则就直接是/pan>就好了 . 用的时候直接 Regex.Match(字符串, 正则表达式).Groups[0].Value 就可以提取了

相似回答

数学题,求解答：21题第n项为[（-2）^(n-1)]x^n 第7项为[（-2）^6]x^7=64x^7

用C#编程采用正则表达式提取html中table的数据项答：(?<=\>)[\u4E00-\u9FA5 A-Z0-9:]+(?=\<)这个还获取了空格，你下面的程序排除就行了

这个代码怎么缩短?答：1L对头哦！这样子：<style type="text/css"> p{ font-family:华文隶书;} </style> <p><span style="font-size: 14.0pt; color: red">目录</span></p> <p>伤寒论卷第一</p> <p>辨脉法第一</p> <p>一脉法第二</p> <p>伤寒论卷第二</p> <p>伤寒例第三</p> <p>...

正则表达式 替换答：asp 里测试通过 < str="<span style='font-size: 9pt; font-family: 宋体'>中国</span>"Function ReplaceTest(patrn,str,replStr)Dim regEx ' 建立变量。Set regEx = New RegExp ' 建立正则表达式。regEx.Pattern = patrn ' 设置模式。regEx.IgnoreCase = True ' 设置是否区分大小写。Replace...

java 用正则表达式提取网页文字答：String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> // } String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式 String regEx_cont1 = ...

正则表达式 清除span答：你看两次正则表达式替换行不行,上面是java代码，下面是js代码

大家正在搜