采集器说明
基本设置说明
网页编码
最好选择正确的编码 否则可能存在乱码
列表采集模式
正则
phpQuery
列表网址
要采集的列表页
列表区域规则
正则模式
<%content%> 匹配的内容
phpQuery 模式
例:div.xxx li a
需要匹配到 a 标签上
列表区域整理
正则模式
具体见[规则数据整理说明]
phpQuery 模式
此处为空
列表链接规则
正则模式
<%title%> 标题
<%url%> 网址
<%var_TM%>
phpQuery 模式
一般为固定值
text 或者 title
href
网址合成
前面列表采集的网址
<%url%>
例:采到网址为/sss/sss.html
实际网址为 http://www.xxxx.com/sss/sss.html
可填写为 http://www.xxxx.com<%url%>
网址整理
对<%url%>进行整理
具体见[规则数据整理说明]
数据项说明
字段
例:title
标题字符
PRE:字段
例:PRE:body
* [PRE:body]
* 把 PRE:body 采集到的数据 当做原始数据
* 一般用于下载内容
DATA:字段
例:DATA:body
* 把之前[body]处理完的数据当作原始数据
* 如果之前有数据会叠加
* 用于数据多次处理
EMPTY:name
如果[name]之前抓取结果数据为空使用这个数据项替换
字段.字段
例:metadata.xxx
* 采集内容做为数组
规则特殊字符
<%content%>
内容
<%var_nz%>
任意字符
[DATA@字段]
例:[DATA@name]
例:[DATA@name.key]
* 内容回调 可以在规则里调用之前内容
phpQuery模式
右侧勾选phpQuery
可使用jquery模式采集
例:div.xxx
RULE@规则ID
使用[规则ID]采集
RAND@长度,(0:数字+字母,1:数字)
RAND@10,0 10位数字+字母
RAND@10,1 数字
返回随机数
采集后整理
抓取html后取出匹配后数据
发布前整理
数据经[采集后整理]处理后
在发布前
替换
例:xxx==ooo
把xxx替换成ooo
清除
例:xxx
直接把xxx字符清除
正则
例:<%\d+%> 替换所有数字
例:<%\w+%> 替换所有字母数字
例:<%(\d+)%>==$1xxxx 所有数字替换成 数字xxxx
例:<%.+%> 替换所有字符
<BR>
例:<BR>
换行
<%SELF%>
例:<%SELF%>
替换成内容 本行无替换/正则效果
BEFOR::
例:BEFOR::xxx
将xxx放置在内容前
AFTER::
例:AFTER::xxx
将xxx放置在内容后
NEED::
例:NEED::xxx
必需包含xxx 否则返回空
NOT::
例:NOT::xxx
不能包含xxx 否则返回空
LEN::
例:LEN::5
必需长度为5个字符 否则返回空
IMG::
例:IMG::5
必需有5张图片 否则返回空
DOM::
例:DOM::div.xxx
使用phpquery
~SELF~
例:~SELF~==1111
替换掉自身内容
~S~
例:~S~
替换掉空格
分页设置说明
使用分页采集
需要在 数据项 任意一项中 勾选 [有分页] 选项
分页数据获取方式
采集方式
逻辑方式
当前网址分解:<%url%>
例: 当前网址
[http://www.xxx.com/asd/123213.html]
分页网址为
[http://www.xxx.com/asd/123213_2.html]
[http://www.xxx.com/asd/123213_3.html]
当前网址分解:<%url%>.html
分页增量
起始编号[分页数开始数字]
结束编号[分页数结束数字]
步长[分页数的增幅度]
分页网址为
[http://www.xxx.com/asd/123213_2.html]
[http://www.xxx.com/asd/123213_3.html]
[http://www.xxx.com/asd/123213_20.html]
共20页
起始编号:2
结束编号:20
步长:1
分页有效特征码
分页内容必需出现此特征码
分页无效特征码
分页内容如果出现此特征码
停止采集
并设置为无效分页
网址合成
<%url%> 分页网址
<%step%> 分页增量
[alt]<%.+%>[/alt]
采集中处理ALT UBB标签
[alt]<%(.*?)%>[/alt]== " alt="$1
采集中数据处理ubb
填上 FUNC::ubb2html("@me")