求正则表达式提取url的问题！

现在想提取HTML文档中的url,但是没有想好成熟的正则表达式，因为他的问题有点复杂。
最简单的是<a href="">连接</a>这种方式，我已经能够提取URL与文字标题了，但现在很多的连接在书写上确是<a href="" 这里有很多的属性，有可能是classs="",有可能是title=“”><font color=""><B>连接<b></font></a>等，但有些还又没有这些属性。怎么实现呢？！不知道我表达清楚没有，就是无论在连接，或是文字标题中有多复杂的HTML代码，都能够准确提取url与标题。！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dv_vstechart/html/vsgrfwalkthroughaccessingdhtmldomfromc.asp
匹配url：Regex myReg=new Regex("(?<=href=\"?)[^'\"> ]+");
匹配相应文字:Regex myReg=new Regex(@"(?<=>)\w+(?=</\w+>)");
regex_str="<\\s*a\\s*[^>]*href=\\s*(\\S*[^\\(]\\()?[\"']?(?<href>[^\\s\"'>]+?)[\\s\"'>]";
如果在客户端的话，可以用jscript
for(o in document.links){
alert(document.links[o].href);
}
在用正则表达式的话可以：
regEx_str=@"<a.*href=\"([^\"]*).*\">"
我想把href的地址与连接标题都去出来！
直接写出完美的正则表达式可能比较困难，建议：
先Match "<a href="这一部分，然后在它后面找第一次出现的</a>然后对<a> </a>中间的部分进行处理，应该可以实现你要的功能。
http://community.csdn.net/Expert/topic/4212/4212276.xml?temp=.1532404再帮我看看这个问题，都有份