午夜国产狂喷潮在线观看|国产AⅤ精品一区二区久久|中文字幕AV中文字幕|国产看片高清在线

    c# 正則表達式對網(wǎng)頁進行內(nèi)容抓取
    來源:易賢網(wǎng) 閱讀:4988 次 日期:2014-07-30 13:59:50
    溫馨提示:易賢網(wǎng)小編為您整理了“c# 正則表達式對網(wǎng)頁進行內(nèi)容抓取”,方便廣大網(wǎng)友查閱!

    搜索引擎中一個比較重要的環(huán)節(jié)就是從網(wǎng)頁中抽取出有效內(nèi)容。簡單來說,就是吧HTML文本中的HTML標(biāo)記去掉,留下我們用IE等瀏覽器打開HTML文檔看到的部分(我們這里不考慮圖片).

    將HTML文本中的標(biāo)記分為:注釋,script ,style,以及其他標(biāo)記分別去掉: 

    1.去注釋,正則為: 

    output = Regex.Replace(input, @"<!--[^-]*-->", string.Empty, RegexOptions.IgnoreCase); 

    2.去script,正則為: 

    ouput = Regex.Replace(input, @"<script[^>]*?>.*?</script>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline); 

    output2 = Regex.Replace(ouput , @"<noscript[^>]*?>.*?</noscript>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline); 

    3.去style,正則為: 

    output = Regex.Replace(input, @"<style[^>]*?>.*?</style>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline); 

    4.去其他HTML標(biāo)記 

    result = result.Replace(" ", " "); 

    result = result.Replace(""", "\""); 

    result = result.Replace("<", "<"); 

    result = result.Replace(">", ">"); 

    result = result.Replace("&", "&"); 

    result = result.Replace("<br>", "\r\n"); 

    result = Regex.Replace(result, @"<[\s\S]*?>", string.Empty, RegexOptions.IgnoreCase); 

    以上的代碼中大家可以看到,我使用了RegexOptions.Singleline參數(shù),這個參數(shù)很重要,他主要是為了讓"."(小圓點)可以匹配換行符.如果沒有這個參數(shù),大多數(shù)情況下,用上面列正則表達式來消除網(wǎng)頁HTML標(biāo)記是無效的. 

    HTML發(fā)展至今,語法已經(jīng)相當(dāng)復(fù)雜,上面只列出了幾種最主要的標(biāo)記,更多的去HTML標(biāo)記的正則我將在 

    Rost WebSpider 的開發(fā)過程中補充進來。 

    下面用c#實現(xiàn)了一個從HTML字符串中提取有效內(nèi)容的類: 

    using System; 

    using System.Collections.Generic; 

    using System.Text; 

    using System.Text.RegularExpressions; 

    class HtmlExtract 

    #region private attributes 

    private string _strHtml; 

    #endregion 

    #region public mehtods 

    public HtmlExtract(string inStrHtml) 

    _strHtml = inStrHtml 

    public override string ExtractText() 

    string result = _strHtml; 

    result = RemoveComment(result); 

    result = RemoveScript(result); 

    result = RemoveStyle(result); 

    result = RemoveTags(result); 

    return result.Trim(); 

    #endregion 

    #region private methods 

    private string RemoveComment(string input) 

    string result = input; 

    //remove comment 

    result = Regex.Replace(result, @"<!--[^-]*-->", string.Empty, RegexOptions.IgnoreCase); 

    return result; 

    private string RemoveStyle(string input) 

    string result = input; 

    //remove all styles 

    result = Regex.Replace(result, @"<style[^>]*?>.*?</style>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline); 

    return result; 

    private string RemoveScript(string input) 

    string result = input; 

    result = Regex.Replace(result, @"<script[^>]*?>.*?</script>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline); 

    result = Regex.Replace(result, @"<noscript[^>]*?>.*?</noscript>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline); 

    return result; 

    private string RemoveTags(string input) 

    string result = input; 

    result = result.Replace(" ", " "); 

    result = result.Replace(""", "\""); 

    result = result.Replace("<", "<"); 

    result = result.Replace(">", ">"); 

    result = result.Replace("&", "&"); 

    result = result.Replace("<br>", "\r\n"); 

    result = Regex.Replace(result, @"<[\s\S]*?>", string.Empty, RegexOptions.IgnoreCase); 

    return result; 

    #endregion

    更多信息請查看IT技術(shù)專欄

    更多信息請查看網(wǎng)絡(luò)編程
    易賢網(wǎng)手機網(wǎng)站地址:c# 正則表達式對網(wǎng)頁進行內(nèi)容抓取
    由于各方面情況的不斷調(diào)整與變化,易賢網(wǎng)提供的所有考試信息和咨詢回復(fù)僅供參考,敬請考生以權(quán)威部門公布的正式信息和咨詢?yōu)闇?zhǔn)!

    2025國考·省考課程試聽報名

    • 報班類型
    • 姓名
    • 手機號
    • 驗證碼
    關(guān)于我們 | 聯(lián)系我們 | 人才招聘 | 網(wǎng)站聲明 | 網(wǎng)站幫助 | 非正式的簡要咨詢 | 簡要咨詢須知 | 新媒體/短視頻平臺 | 手機站點 | 投訴建議
    工業(yè)和信息化部備案號:滇ICP備2023014141號-1 云南省教育廳備案號:云教ICP備0901021 滇公網(wǎng)安備53010202001879號 人力資源服務(wù)許可證:(云)人服證字(2023)第0102001523號
    云南網(wǎng)警備案專用圖標(biāo)
    聯(lián)系電話:0871-65099533/13759567129 獲取招聘考試信息及咨詢關(guān)注公眾號:hfpxwx
    咨詢QQ:1093837350(9:00—18:00)版權(quán)所有:易賢網(wǎng)
    云南網(wǎng)警報警專用圖標(biāo)