java中xml(txt/html等格式)解析问题，请教java高手，请勿粘贴其他网页上的内容（能查的都看了）。

目的：通过对网页内容解析，获得需要的内容，如网页的标题Title，主要内容，描述信息
；而里面的广告、超链接、无关紧要的信息统统不要，从而达到对用户上网行为的分析的目的。
下面是我做的一个：只能对xml文件解析，其他的格式不行。其次这只是对一级子元素判断，未判断二级或三级等。
需要导入jdom jar包

1.放在E盘的app.xml文档
<?xml version="1.0" encoding="GB2312"?>
<Application>
<Group name="book">
<key>loops</key>
<key>look</key>
</Group>
<Group name="book">
<key>loops1</key>
<key>look1</key>
</Group>
</Application>

java处理程序
package example;

import org.jdom.*;
import org.jdom.input.SAXBuilder;

import java.io.*;
import java.util.*;
/**
* Xml 解析工作实现（读取分析）
* Title: 
* Description: 
* Copyright: Copyright (c) 2005
* Company: 
* @author Yaming
* @version 1.0
*/
public class XmlReader {
private Element m_RootElement = null;
public Element getM_RootElement() {
return m_RootElement;
}
public void setM_RootElement(Element m_RootElement) {
this.m_RootElement = m_RootElement;
}

/**
* 构造函数
* @param xmlFile String
* 根据文件的路径初始化dom的根
*/
public class XmlReader {
private Element m_RootElement = null;
public Element getM_RootElement() {
return m_RootElement;
}
public void setM_RootElement(Element m_RootElement) {
this.m_RootElement = m_RootElement;
}

/**
* 构造函数
* @param xmlFile String
* 根据文件的路径初始化dom的根
*/
public XmlReader(String xmlFile) {
try {
SAXBuilder builder = new SAXBuilder();//解析器定义
Document doc=null;
doc=builder.build(new FileInputStream(xmlFile));//读入Xml文件，获得Doc
this.m_RootElement = doc.getRootElement();//获得Xml文件的最上面的根
// System.out.println("1========"+m_RootElement);
}
catch (IOException ex) {
this.m_RootElement=null;
}
catch (JDOMException ex) {
this.m_RootElement=null;
}
}
/**
* 获得指定名字的根的内容，此方法只适用于此xml
* @param curRoot Element Your XmlRoot
* @param codeName String Your XmlCode
* @return List
*/
public List getElement(Element curRoot,String codeName) {
List result = new ArrayList();

if (null == curRoot) {
curRoot = m_RootElement;
}//判断Xml是否存在，以及根是否正确解析
if (null != curRoot) {
List l=curRoot.getChildren();//获得最上层根的所有字节点
Iterator it=l.iterator();//递归取出
while(it.hasNext()){
Element e=(Element)it.next();
if(e.getName().equalsIgnoreCase(codeName)){//获取这些根是否为所需要的
List l1=e.getChildren();//如果需要，解析出这个子节点的所有子节点
Iterator it1=l1.iterator();
while(it1.hasNext()){
Element e1=(Element)it1.next();
result.add(e1.getTextTrim());//取出所包含的值，放到要返回的结果集中
} } }}
return result;
}

举报该问题

推荐答案 2011-03-17

用正则是最灵活可控的方法。用xml解析html无异于缘木求鱼。
如果搜索xml文件，最好别使用dom方式，效率和性能都很差，建议使用xpath方式

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/npxvUUvDp.html

其他回答

第1个回答 2011-03-15

请把你要解析的HTML文档贴个出来，看看追问

public static void main(String[] args) {
XmlReader xr = new XmlReader("E:\\web.xml");
Element e = xr.getM_RootElement();
// System.err.println("2======"+e);
String codeName = "filter-mapping";
List list = xr.getElement(e, codeName);
for(Iterator it = list.iterator();it.hasNext();){
System.out.println("3=========="+(String)it.next());
//随便的html文档

第2个回答 2011-03-15

很多html都不规范你怎么解析啊，要解析只能解析xhtml，这个严格的xml文档。追问

就如你所说现在我就解析xml 那能根据我给出的参数查找出我需要的内容吗
例如给出一个标签名、或者标签内的属性或者是哪个标签之前或之后的内容灵活的读取

第3个回答 2011-03-16

顶楼上，html用dom解析就是个杯具。

老老实实用正则表达式是王道

相似回答

如何用java程序从xml文件中根据文本内容获取指定标签并删除标签和内容...答：二、应用 DOM 方式解析 XML ❤ 在Java程序中如何获取XML文件的内容 解析的目的：获取节点名、节点值、属性名、属性值；四种解析方式：DOM、SAX、DOM4J、JDOM DOM、SAX ：java 官方方式，不需要下载jar包DOM4J、JDOM ：第三方，需要网上下载jar包示例：解析XML文件，目标是解析XML文件后，Java程...

java中,用 Element 创建XML时的格式问题答：Element:表示起始标签和结束标签之间的内容，如我们经常用到的<d:Layout></d:Layout>这种类型的节点也是唯一能包含特性Attr和子节点ChildNode的节点类型。Text:代表XML文档中起始标签和结束标签之间的普通文本，不能包含子节点 Attr:代表一对特性名和特性值。不能包含子节点，例如<d:La...

Enhydra Java/XML服务器开发实务目录答：1-1 谈论Java在网站开发中的应用，包括Java的介绍和特性，如其高效和平台无关性。Applet和servlet的特性与区别，以及jsp在动态网页中的角色。1-2 简要讲解XML，包括基本概念、文件结构和如何将HTML网页看作可操作的对象。1-3 进一步阐述应用程序服务器的概念，包括n-tier架构的起源及其优势，以及什么是...

JAVA-关于META-INF/context.xml的问题?答：JBoss是集成Tomcat的，使用不论是Tomcat和JBoss，其基本功能都是一样的！所以都会对你配置的appMETA-INF/context.xml文件进行解析。。不过需要注意不同的JBoss版本集成的Tomcat版本也不同，你可以在你安装的JBoss的说明文件中找到其集成的Tomcat版本，在Jboss官网上也可以找到。因此如果你本地使用的是tomcat6...

急!JDOM解析XML报错 java.lang.NoClassDefFoundError: org/jaxen/Jaxen...答：但是加上jaxen-1.1.1.jar就可以了，检查下你有没有把jaxen-1.1.1.jar包加到path里面？参考资料：<a href="http://www.myexception.cn/java%20exception/95.html" target="_blank" rel="nofollow noopener">http://www.myexception.cn/java%20exception/95.html</a> ...

Enhydra Java/XML服务器开发实务内容介绍答：本文旨在以最直观的方式解析Enhydra Java/XML服务器的开发实践。首先，我们将探讨Java/XML应用程序服务器的基础架构，深入浅出地揭示其背后的运行原理和设计思路，帮助开发者更好地理解其工作方式。在实际应用中，Enhydra提供了快速构建大型商业网站的实用指南和技巧。无论是网站的架构设计还是功能实现，它都...

大家正在搜