锚点:就是使正则取值唯一的参照。(也许是我个人的说法) 需求:匹配时间 观察:<span 和 pub_date是锚点 因此,我们关心的是: 1、span标签 2、span标签里面有id="pub_date",这个锚点前后的数据不考虑 3、span的内容,需要提取,用括号(子模式)提取 得到:<span[^>]*?id="pub_date"[^>]*?>(.*?)</span>
未经同意禁止转载!
转载请附带本文原文地址:正则匹配html中的时间,首发自 Zjmainstay学习笔记
<div class="artInfo"> <span id="pub_date">2014年03月12日 20:20</span> <span id="media_name"> <a href=http://stock.caijing.com.cn/2014-03-12/114002955.html?_fin target="_blank">财经网</a> </span> <div class="font_change" id="J_Font_Zoomer" data-sudaclick="font_change"> <span font-size="14"> <a class="J_Font_Zoomer_Trigger icon font_down font_down_disable" action-type="fontZoom" action-data="type=down" href="javascript:void(0);" title="减小字号"></a> </span> </div> </div>正则:
<span[^>]*?id="pub_date"[^>]*?>(.*?)</span>
锚点:就是使正则取值唯一的参照。(也许是我个人的说法) 需求:匹配时间 观察:<span 和 pub_date是锚点 因此,我们关心的是: 1、span标签 2、span标签里面有id="pub_date",这个锚点前后的数据不考虑 3、span的内容,需要提取,用括号(子模式)提取 得到:<span[^>]*?id="pub_date"[^>]*?>(.*?)</span>