现在想提取HTML文档中的url,但是没有想好成熟的正则表达式,因为他的问题有点复杂。
最简单的是<a href="">连接</a>这种方式,我已经能够提取URL与文字标题了,但现在很多的连接在书写上确是<a href="" 这里有很多的属性,有可能是classs="",有可能是title=“”><font color=""><B>连接<b></font></a>等,但有些还又没有这些属性。怎么实现呢?!不知道我表达清楚没有,就是无论在连接,或是文字标题中有多复杂的HTML代码,都能够准确提取url与标题。!
最简单的是<a href="">连接</a>这种方式,我已经能够提取URL与文字标题了,但现在很多的连接在书写上确是<a href="" 这里有很多的属性,有可能是classs="",有可能是title=“”><font color=""><B>连接<b></font></a>等,但有些还又没有这些属性。怎么实现呢?!不知道我表达清楚没有,就是无论在连接,或是文字标题中有多复杂的HTML代码,都能够准确提取url与标题。!
解决方案 »
- oracle 多表联合查询
- c#修改access的数据时,access是不是一定要设置主键?
- RichTextBox的输入字体
- datagridview数据绑定的问题,qq32012372在线等高手指教!!!!!!!!
- silverlight专案是否可以编译成EXE文件
- C# FORM 页面如何显示照片 求C#高手 谢谢 还是 没能解决
- 有事件能捕捉 WInForm datagrid中 单元格的值 发生改变吗?在线等
- 求个算法!!亲
- 如何得到dataset中某一行的index
- 用SqlDataAdapter对象时,怎样把参数传递到SQL语句中去,求助各位
- 高手请进:一个字符串的问题!!!!!
- 你们那里ADSL稳定吗?
匹配相应文字:Regex myReg=new Regex(@"(?<=>)\w+(?=</\w+>)");
for(o in document.links){
alert(document.links[o].href);
}
在用正则表达式的话可以:
regEx_str=@"<a.*href=\"([^\"]*).*\">"
先Match "<a href="这一部分,然后在它后面找第一次出现的</a>然后对<a> </a>中间的部分进行处理,应该可以实现你要的功能。