Java如何正則表達式分析讀取網頁內容

時間：2025-09-27 15:27:26 java語言

Java如何正則表達式分析讀取網頁內容

　　導語：Java如何正則表達式分析讀取網頁內容？下面是小編給大家提供的代碼實現，大家可以參考閱讀，更多詳情請關注應屆畢業生考試網。

　　Java用正則表達式分析讀取網頁內容

　　package com.xiaofeng.picup;

　　import java.io.BufferedReader;

　　import java.io.IOException;

　　import java.io.InputStreamReader;

　　import java.net.MalformedURLException;

　　import java.net.URL;

　　import java.util.ArrayList;

　　import java.util.HashMap;

　　import java.util.List;

　　import java.util.regex.Matcher;

　　import java.util.regex.Pattern;

　　/** */pic/p>

　　* @抓取雅虎知識堂的文章標題及內容（測試）手動輸入網址抓取，可進一步自動抓取整個知識堂的全部內容

　　public class WebContent ...{

　　/** */pic/p>

　　* 讀取一個網頁全部內容

　　public String getOneHtml(String htmlurl) throws IOException...{

　　URL url;

　　String temp;

　　StringBuffer sb = new StringBuffer();

　　try ...{

　　url = new URL(htmlurl);

　　BufferedReader in = new BufferedReader(new InputStreamReader(url

　　.openStream(), "utf-8"));/pic/p>

　　while ((temp = in.readLine()) != null) ...{

　　sb.append(temp);

　　}

　　in.close();

　　}catch(MalformedURLException me)...{

　　System.out.println("你輸入的URL格式有問題！請仔細輸入");

　　me.getMessage();

　　throw me;

　　}catch (IOException e) ...{

　　e.printStackTrace();

　　throw e;

　　}

　　return sb.toString();

　　}

　　/** */pic/p>

　　* @param s

　　* @return 獲得網頁標題

　　public String getTitle(String s) ...{

　　String regex;

　　String title = "";

　　List<String> list = new ArrayList<String>();

　　regex = "<title>.*?</title>";

　　Pattern pa = Pattern.compile(regex, Pattern.CANON_EQ);

　　Matcher ma = pa.matcher(s);

　　while (ma.find()) ...{

　　list.add(ma.group());

　　}

　　for (int i = 0; i < list.size(); i++) ...{

　　title = title + list.get(i);

　　}

　　return outTag(title);

　　}

　　/** */pic/p>

　　* @param s

　　* @return 獲得鏈接

　　public List<String> getLink(String s) ...{

　　String regex;

　　List<String> list = new ArrayList<String>();

　　regex = "<a[^>]*href=("([^"]*)"|'([^']*)'|([^s>]*))[^>]*>(.*?)</a>";

　　Pattern pa = Pattern.compile(regex, Pattern.DOTALL);

　　Matcher ma = pa.matcher(s);

　　while (ma.find()) ...{

　　list.add(ma.group());

　　}

　　return list;

　　}

　　/** */pic/p>

　　* @param s

　　* @return 獲得腳本代碼

　　public List<String> getScript(String s) ...{

　　String regex;

　　List<String> list = new ArrayList<String>();

　　regex = "<script.*?</script>";

　　Pattern pa = Pattern.compile(regex, Pattern.DOTALL);

　　Matcher ma = pa.matcher(s);

　　while (ma.find()) ...{

　　list.add(ma.group());

　　}

　　return list;

　　}

　　/** */pic/p>

　　* @param s

　　* @return 獲得CSS

　　public List<String> getCSS(String s) ...{

　　String regex;

　　List<String> list = new ArrayList<String>();

　　regex = "<style.*?</style>";

　　Pattern pa = Pattern.compile(regex, Pattern.DOTALL);

　　Matcher ma = pa.matcher(s);

　　while (ma.find()) ...{

　　list.add(ma.group());

　　}

　　return list;

　　}

　　/** */pic/p>

　　* @param s

　　* @return 去掉標記

　　public String outTag(String s) ...{

　　return s.replaceAll("<.*?>", "");

　　}

【Java如何正則表達式分析讀取網頁內容】相關文章：

java如何讀取CSV07-08

java如何通過url讀取文件08-24

Java如何讀取圖片EXIF信息02-20

從Java的jar文件中如何讀取數據的方法01-24

Java讀取郵件的方法02-02