php 实现信息采集(网页内容抓取)程序代码
- 作者: 五速梦信息网
- 时间: 2026年03月19日 18:00
?>
<?
//采集首页地址
\(url="http://www.xz-src.com/";
//获取页面代码
\)rs=file_get_contents(\(url);
//设置匹配正则
//\)fp=fopen(“text.txt”,“a”);
//\(fw=fwrite(\)fp,\(rs);
//fclose(\)fp);
/*/
$preg=‘/<a\s+href="[^>]+">(.)/i’;
//进行正则搜索
preg_match_all(\(preg,\)rs,\(title);
//计算标题数量
\)count=count(\(title[0]);
echo \)count.“
”;
//通过标题数量进行内容采集
for (\(i=0;\)i<\(count;\)i++){
//设置内容页地址
\(pr='/<a\s+href=\"[^>]+\">/isU';
preg_match_all(\)pr,\(title[0][\)i],\(jurl);
\)substr=substr(\(jurl[0][0],9);
\)curl=substr(\(substr,0,-18);
//获取内容页代码
\)c=file_get_contents(\(curl);
//设置内容页匹配正则
\)pc=‘/<a\s+href="[^>]+">/i’;
//进行正则匹配搜索
preg_match(\(pc,\)c,\(content);
//输出标题
echo \)title[0][\(i]."<br/>";
echo \)title[1][\(i]."<br/>";
\)concount=count(\(content[0]);
echo \)concount.“
”;
echo \(content[0][0];
for (\)j=0;$j
- 上一篇: 相比于eval,create
- 下一篇: Python作为PHP的扩展——ppython简介
相关文章
-
相比于eval,create
相比于eval,create
- 技术栈
- 2026年03月19日
-
PHPCMS v9 安全防范教程!
PHPCMS v9 安全防范教程!
- 技术栈
- 2026年03月19日
-
DNS与BIND 第5版 PDF 下载
DNS与BIND 第5版 PDF 下载
- 技术栈
- 2026年03月19日
-
Python作为PHP的扩展——ppython简介
Python作为PHP的扩展——ppython简介
- 技术栈
- 2026年03月19日
-
微信开发之分清公众平台和开放平台、公众号全局凭证和网页授权凭证
微信开发之分清公众平台和开放平台、公众号全局凭证和网页授权凭证
- 技术栈
- 2026年03月19日
-
ThinkPHP 5.x远程命令执行漏洞 补丁
ThinkPHP 5.x远程命令执行漏洞 补丁
- 技术栈
- 2026年03月19日
