java 使用正则表达式从网页上提取网站标题

简介: 如何从网页上抓取有价值的东西?看懂了下面的程序(非常简单),想从网页上抓取什么信息(标题、内容、Email、价格等)就能抓取什么信息。 package catchhtml; import java.

如何从网页上抓取有价值的东西?看懂了下面的程序(非常简单),想从网页上抓取什么信息(标题、内容、Email、价格等)就能抓取什么信息。

package catchhtml;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class GetHtmlTitle {
    
    public GetHtmlTitle(String htmlUrl){
        System.out.println("/n------------开始读取网页(" + htmlUrl + ")-----------");
        String htmlSource = "";
        htmlSource = getHtmlSource(htmlUrl);//获取htmlUrl网址网页的源码
        System.out.println("------------读取网页(" + htmlUrl + ")结束-----------/n");
        System.out.println("------------分析(" + htmlUrl + ")结果如下-----------/n");
        String title = getTitle(htmlSource);
        System.out.println("网站标题: " + title);
    }
    
    /**
     * 根据网址返回网页的源码
     * @param htmlUrl
     * @return
     */
    public String getHtmlSource(String htmlUrl){
        URL url;    
        StringBuffer sb = new StringBuffer();
        try{
            url = new URL(htmlUrl);
            BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), "UTF-8"));//读取网页全部内容
            String temp;
            while ((temp = in.readLine()) != null)
            {            
                sb.append(temp);
            }
            in.close();
        }catch (MalformedURLException e) {
            System.out.println("你输入的URL格式有问题!请仔细输入");
        }catch (IOException e) {
            e.printStackTrace();
        }    
        return sb.toString();
    }
    
    /**
     * 从html源码(字符串)中去掉标题
     * @param htmlSource
     * @return
     */
    public String getTitle(String htmlSource){
        List<String> list = new ArrayList<String>();
        String title = "";
        
        //Pattern pa = Pattern.compile("<title>.*?</title>", Pattern.CANON_EQ);也可以
        Pattern pa = Pattern.compile("<title>.*?</title>");//源码中标题正则表达式
        Matcher ma = pa.matcher(htmlSource);
        while (ma.find())//寻找符合el的字串
        {
            list.add(ma.group());//将符合el的字串加入到list中
        }
        for (int i = 0; i < list.size(); i++)
        {
            title = title + list.get(i);
        }
        return outTag(title);
    }
    
    /**
     * 去掉html源码中的标签
     * @param s
     * @return
     */
    public String outTag(String s)
    {
        return s.replaceAll("<.*?>", "");
    }
    
    public static void main(String[] args) {
        String htmlUrl = "http://www.157buy.com";
        new GetHtmlTitle(htmlUrl);

    }
}

 

如何联系我:【万里虎】www.bravetiger.cn 【QQ】3396726884 (咨询问题100元起,帮助解决问题500元起) 【博客】http://www.cnblogs.com/kenshinobiy/
目录
相关文章
|
1月前
|
Java 程序员
Java 异常处理与正则表达式详解,实例演练及最佳实践
在 Java 代码执行期间,可能会发生各种错误,包括程序员编码错误、用户输入错误以及其他不可预料的状况。 当错误发生时,Java 通常会停止并生成错误消息,这个过程称为抛出异常。 try...catch 语句 try 语句允许您定义一段代码块,并在其中测试是否发生错误。 catch 语句允许您定义一段代码块,当 try 块中发生错误时执行该代码块。 try 和 catch 关键字成对使用,语法如下:
42 0
|
15天前
|
XML 数据可视化 前端开发
java正则表达式
java正则表达式
|
4天前
|
JavaScript Java 测试技术
基于Java的汇编课程网站的设计与实现(源码+lw+部署文档+讲解等)
基于Java的汇编课程网站的设计与实现(源码+lw+部署文档+讲解等)
18 0
|
4天前
|
JavaScript Java 测试技术
基于Java的C2C商务网站的设计与实现(源码+lw+部署文档+讲解等)
基于Java的C2C商务网站的设计与实现(源码+lw+部署文档+讲解等)
12 0
|
5天前
|
JavaScript Java 测试技术
基于Java的中小型餐厅网站的设计与实现(源码+lw+部署文档+讲解等)
基于Java的中小型餐厅网站的设计与实现(源码+lw+部署文档+讲解等)
22 0
|
5天前
|
JavaScript Java 测试技术
基于Java的江苏融汇房地产营销策划有限公司的宣传网站的设计与实现(源码+lw+部署文档+讲解等)
基于Java的江苏融汇房地产营销策划有限公司的宣传网站的设计与实现(源码+lw+部署文档+讲解等)
20 0
基于Java的江苏融汇房地产营销策划有限公司的宣传网站的设计与实现(源码+lw+部署文档+讲解等)
|
8天前
|
JavaScript Java 测试技术
基于Java的一家运动鞋店的产品推广网站的设计与实现(源码+lw+部署文档+讲解等)
基于Java的一家运动鞋店的产品推广网站的设计与实现(源码+lw+部署文档+讲解等)
22 0
|
11天前
|
JavaScript Java 测试技术
基于Java的阅微文学网站的设计与实现(源码+lw+部署文档+讲解等)
基于Java的阅微文学网站的设计与实现(源码+lw+部署文档+讲解等)
29 2
|
11天前
|
JavaScript Java 测试技术
基于Java的旅游网页的设计与实现(源码+lw+部署文档+讲解等)
基于Java的旅游网页的设计与实现(源码+lw+部署文档+讲解等)
20 0
|
12天前
|
JavaScript Java 测试技术
基于Java的校园心理健康网站的设计与实现(源码+lw+部署文档+讲解等)
基于Java的校园心理健康网站的设计与实现(源码+lw+部署文档+讲解等)
26 1
基于Java的校园心理健康网站的设计与实现(源码+lw+部署文档+讲解等)

热门文章

最新文章