...做个批量保存网页内的源文件或文本的小程序~
发布网友
发布时间:2024-07-22 17:23
我来回答
共5个回答
热心网友
时间:2024-08-04 09:49
程序如下,实现对网页源码保存为txt文档
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class saveHtml {
/**
* 根据网址读取网页HTML内容
* @param pageUrl 网页地址
*/
public String readerPageByUrl(String pageUrl) {
URL url;
String pageString="";
try {
url = new URL(pageUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection(); //根据HttpURLConnection得到网页的输入流
InputStream is = connection.getInputStream();
StringBuffer sb=new StringBuffer();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"UTF-8")); //设置编码
String line = null;
while ((line = br.readLine()) != null) {
sb.append(line+"\n");
}
pageString=sb.toString();
} catch (Exception e) {
e.printStackTrace();
}finally{
}
return pageString;
}
/**
* 写入操作
* @param filePath 静态页面路径
* @param fileStr 网页内容
* @throws Exception
*/
public void writeStringToFile(String filePath, String fileStr) throws Exception //写文件
{
File file=new File(filePath);
FileOutputStream fileout = new FileOutputStream(file);
fileout.write(fileStr.getBytes());
fileout.close();
}
/**
* 生成静态页面
* @param pageUrl 网址
* @param filePath 静态页面路径
* @throws Exception
*/
public void createStaticPage(String pageUrl,String filePath) throws Exception{
//获取网页内容
String pageStr=readerPageByUrl(pageUrl);
System.out.println(pageStr);
try {
writeStringToFile(filePath, pageStr);
} catch (Exception e) {
e.printStackTrace();
}
}
//测试
public static void main(String[] args) {
saveHtml rb=new saveHtml();
String pageUrl[]={"http://www.qiushibaike.com/"};// 目标网站
try {
for(int i=0;i<pageUrl.length;i++)//对多个网页进行循环保存
{
String filePath="D://wenjian"+i+".txt"; //生成文本后保存的路径
rb.createStaticPage(pageUrl[i], filePath);
}
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
热心网友
时间:2024-08-04 09:53
你搜一下,网站整站下载,不过下来的都是静态的html页面,我用过很好用的
热心网友
时间:2024-08-04 09:50
程序如下,实现对网页源码保存为txt文档
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class saveHtml {
/**
* 根据网址读取网页HTML内容
* @param pageUrl 网页地址
*/
public String readerPageByUrl(String pageUrl) {
URL url;
String pageString="";
try {
url = new URL(pageUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection(); //根据HttpURLConnection得到网页的输入流
InputStream is = connection.getInputStream();
StringBuffer sb=new StringBuffer();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"UTF-8")); //设置编码
String line = null;
while ((line = br.readLine()) != null) {
sb.append(line+"\n");
}
pageString=sb.toString();
} catch (Exception e) {
e.printStackTrace();
}finally{
}
return pageString;
}
/**
热心网友
时间:2024-08-04 09:48
S常用命令详解
dir 列文件名 deltree 删除目录树 cls 清屏 cd 改变当前目录
copy 拷贝文件 diskcopy 复制磁盘 del 删除文件 format 格式化磁盘
edit 文本编辑 mem 查看内存状况 md 建立子目录 move 移动文件、改目录名
more 分屏显示 type 显示文件内容 rd 删除目录
sys 制作DOS系统盘
ren 改变文件名 xcopy 拷贝目录与文件 chkdsk 检查磁盘 attrib 设置文件属性
fdisk 硬盘分区 date 显示及修改日期 label 设置卷标号 defrag 磁盘碎片整理
msd 系统检测 path 设置搜寻目录 share 文件共享 memmaker内存优化管理
help 帮助 restore 恢复备份文件 set 设置环境变量 time 显示及修改时间
tree 列目录树 debug 随机调试程序 doskey 重新调用DOS命令 prempt 设置提示符 undelete恢复被删的文件 scandisk检测、修理磁盘
不常用DOS命令
diskcomp磁盘比较 append 设置非执行文件路径
expand 还原DOS文件 fasthelp快速显示帮助信息
fc 文件比较 interink启动服务器
setver 设置版本 intersvr启动客户机
subst 路径替换 qbasic Basic集成环境
vsafe 防病毒 unformat恢复已格式化的磁盘
ver 显示DOS版本号 smartdrv设置磁盘加速器
vol 显示磁盘卷标号 lh 将程序装入高端内存
ctty 改变控制设备 emm386 扩展内存管理
常用命令具体介绍:
一、Dir
显示目录文件和子目录列表,呵呵,这个当然是人人要知道的。
可以使用通配符(? 和 *),?表通配一个字符,*表通配任意字符
*.后缀
指定要查看后缀的文件。 上面其实也可以为“ . 后缀”,例如dir *.exe 等于dir .exe
/p
每次显示一个列表屏幕。要查看下一屏,请按键盘上的任意键。
/w
以宽格式显示列表,在每一行上最多显示 5 个文件名或目录名。
/s
列出指定目录及所有子目录中出现的每个指定的文件名。比win环境下的查找快多了
dir *.* -> a.txt 把当前目录文件列表写入a.txt
dir *.* /s -> a.txt 把当前目录文件列表写入a.txt,包括子目录下文件。
二、Attrib
显示、设置或删除指派给文件或目录的只读、存档、系统以及隐藏属性。如果在不含参数的情况下使用,则 attrib 会显示当前目录中所有文件的属性。
+r 设置只读属性。
-r 清除只读属性。
+a 设置存档文件属性。
-a 清除存档文件属性。
+s 设置系统属性。
-s 清除系统属性。
+h 设置隐藏属性。
-h 清除隐藏属性。
三、Cls
清除显示在命令提示符窗口中的所有信息,并返回空窗口,即“清屏”
四、Exit
退出当前命令解释程序并返回到系统。
五、format
格式化
/q 执行快速格式化。删除以前已格式化卷的文件表和根目录,但不在扇区之间扫描损坏区域。使用 /q 命令行选项应该仅格式化以前已格式化的完好的卷。
六、Ipconfig
显示所有当前的 TCP/IP 网络配置值、刷新动态主机配置协议 (DHCP) 和域名系统 (DNS) 设置。使用不带参数的 ipc......
热心网友
时间:2024-08-04 09:47
获取网页内容,然后解析网页源码,提取出自己感兴趣的东西即可;
之前我做过一个解析我们学校各网站新闻页面的小工具;
用C#做的,其实就是操作字符串;
很简单的,方法都是一样的;
不过有点麻烦的是这个通用性不高;
对每一个站点都需要先手动提取其特征;