Go语言视频零基础入门到精通

javalearner · 发表于 2014-10-28 23:58:46

[code][/code]

package string;
import java.util.regex.Pattern;
/**
* 截取HTML代码
*
* @author YangJunping
* @date 2010-7-15
*/
public class Html2Text {
public static void main(String[] args) {
StringBuffer htmlStr = new StringBuffer();
htmlStr.append("<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">")
         .append("<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en"><head><title>aaa</title><mce:script type="text/javascript"></mce:script>")
         .append("<link href="static_files/help.css" mce_href="static_files/help.css" rel="stylesheet" type="text/css" media="all" />")
         .append("</head><body><ul><li>XXXX</li></ul></body></html>");

System.out.println(Html2Text(htmlStr.toString()));
}
public static String Html2Text(String inputString) {
      String htmlStr = inputString; // 含html标签的字符串
      String textStr = "";
      java.util.regex.Pattern p_script;
      java.util.regex.Matcher m_script;
      java.util.regex.Pattern p_style;
      java.util.regex.Matcher m_style;
      java.util.regex.Pattern p_html;
      java.util.regex.Matcher m_html;

      java.util.regex.Pattern p_html1;
      java.util.regex.Matcher m_html1;

   try {
         String regEx_script = "<[\s]*?script[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?script[\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\s\S]*?<\/script>
         String regEx_style = "<[\s]*?style[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?style[\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\s\S]*?<\/style>
         String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
         String regEx_html1 = "<[^>]+";
         p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
         m_script = p_script.matcher(htmlStr);
         htmlStr = m_script.replaceAll(""); // 过滤script标签

         p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
         m_style = p_style.matcher(htmlStr);
         htmlStr = m_style.replaceAll(""); // 过滤style标签

         p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
         m_html = p_html.matcher(htmlStr);
         htmlStr = m_html.replaceAll(""); // 过滤html标签

         p_html1 = Pattern.compile(regEx_html1, Pattern.CASE_INSENSITIVE);
         m_html1 = p_html1.matcher(htmlStr);
         htmlStr = m_html1.replaceAll(""); // 过滤html标签

         textStr = htmlStr;

      } catch (Exception e) {
         System.err.println("Html2Text: " + e.getMessage());
      }

   return textStr;// 返回文本字符串
}
}

运行:

C:work>java Html2Text

aaaXXXX

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万！大数据从入门到精通学习路线	年薪50万！机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

Java亿级流量电商系统视频教程

年薪50万Spark2.0从入门到精通

年薪50万！人工智能学习路线教程

[正则表达式学习]Java正则表达式过滤HTML标签实例

相关帖子

浏览过的版块