现在想提取HTML文档中的url,但是没有想好成熟的正则表达式,因为他的问题有点复杂。
最简单的是<a href="">连接</a>这种方式,我已经能够提取URL与文字标题了,但现在很多的连接在书写上确是<a href="" 这里有很多的属性,有可能是classs="",有可能是title=“”><font color=""><B>连接<b></font></a>等,但有些还又没有这些属性。怎么实现呢?!不知道我表达清楚没有,就是无论在连接,或是文字标题中有多复杂的HTML代码,都能够准确提取url与标题。!

解决方案 »

  1.   

    http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dv_vstechart/html/vsgrfwalkthroughaccessingdhtmldomfromc.asp
      

  2.   

    匹配url:Regex myReg=new Regex("(?<=href=\"?)[^'\"> ]+");
    匹配相应文字:Regex myReg=new Regex(@"(?<=>)\w+(?=</\w+>)");
      

  3.   

    regex_str="<\\s*a\\s*[^>]*href=\\s*(\\S*[^\\(]\\()?[\"']?(?<href>[^\\s\"'>]+?)[\\s\"'>]";
      

  4.   

    如果在客户端的话,可以用jscript
    for(o in document.links){
    alert(document.links[o].href);
    }
    在用正则表达式的话可以:
    regEx_str=@"<a.*href=\"([^\"]*).*\">"
      

  5.   

    我想把href的地址与连接标题都去出来!
      

  6.   

    直接写出完美的正则表达式可能比较困难,建议:
    先Match "<a href="这一部分,然后在它后面找第一次出现的</a>然后对<a> </a>中间的部分进行处理,应该可以实现你要的功能。
      

  7.   

    http://community.csdn.net/Expert/topic/4212/4212276.xml?temp=.1532404再帮我看看这个问题,都有份