虾米(楼主) 1

采集规则无法匹配到位

比如采集规则中,正则匹配列表链接规则 :查看源代码<a href="../xxx.html" >一区 网站首页</a>

规则填:<a href="<%url%>" >一区<%title%></a>
如图

测试采集下来可行,可是问题就来了,遇到不符合的网址规则,就是上面没有带有&#34;一区&#34;就直接匹配遇到符合规则网址,一堆乱网址包括文字。下一条符合规则就正常。

想问一下,不符合规则的网址可以直接断开,寻找下一条符合规则,不要这条直接不符合就全选到符合规则那里。一对乱
发布于 2019-04-22 11:15 0 回复 举报
fishes 2

不能完全匹配的,就只匹配链接就行。我的就是。让方案检查链接是否发不过。

发布于 2019-04-24 12:48 0 回复 举报
验证码 换一张
取 消