问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

跪求编程高手,做个批量保存网页内的源文件或文本的小程序~

发布网友 发布时间:2022-05-06 18:31

我来回答

5个回答

热心网友 时间:2023-10-15 04:30

程序如下,实现对网页源码保存为txt文档
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class saveHtml {
/**
* 根据网址读取网页HTML内容
* @param pageUrl 网页地址
*/
public String readerPageByUrl(String pageUrl) {
URL url;
String pageString="";
try {
url = new URL(pageUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection(); //根据HttpURLConnection得到网页的输入流
InputStream is = connection.getInputStream();
StringBuffer sb=new StringBuffer();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"UTF-8")); //设置编码

String line = null;
while ((line = br.readLine()) != null) {
sb.append(line+"\n");
}
pageString=sb.toString();
} catch (Exception e) {
e.printStackTrace();
}finally{

}
return pageString;
}
/**
* 写入操作
* @param filePath 静态页面路径
* @param fileStr 网页内容
* @throws Exception
*/
public void writeStringToFile(String filePath, String fileStr) throws Exception //写文件
{
File file=new File(filePath);
FileOutputStream fileout = new FileOutputStream(file);
fileout.write(fileStr.getBytes());
fileout.close();
}
/**
* 生成静态页面
* @param pageUrl 网址
* @param filePath 静态页面路径
* @throws Exception
*/
public void createStaticPage(String pageUrl,String filePath) throws Exception{
//获取网页内容
String pageStr=readerPageByUrl(pageUrl);
System.out.println(pageStr);
try {
writeStringToFile(filePath, pageStr);
} catch (Exception e) {
e.printStackTrace();
}

}
//测试
public static void main(String[] args) {
saveHtml rb=new saveHtml();
String pageUrl[]={"http://www.qiushike.com/"};// 目标网站
try {
for(int i=0;i<pageUrl.length;i++)//对多个网页进行循环保存
{
String filePath="D://wenjian"+i+".txt"; //生成文本后保存的路径
rb.createStaticPage(pageUrl[i], filePath);
}

} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

}

热心网友 时间:2023-10-15 04:30

S常用命令详解

dir 列文件名 deltree 删除目录树 cls 清屏 cd 改变当前目录
copy 拷贝文件 diskcopy 复制磁盘 del 删除文件 format 格式化磁盘
edit 文本编辑 mem 查看内存状况 md 建立子目录 move 移动文件、改目录名
more 分屏显示 type 显示文件内容 rd 删除目录
sys 制作DOS系统盘
ren 改变文件名 xcopy 拷贝目录与文件 chkdsk 检查磁盘 attrib 设置文件属性
fdisk 硬盘分区 date 显示及修改日期 label 设置卷标号 defrag 磁盘碎片整理
msd 系统检测 path 设置搜寻目录 share 文件共享 memmaker内存优化管理
help 帮助 restore 恢复备份文件 set 设置环境变量 time 显示及修改时间
tree 列目录树 debug 随机调试程序 doskey 重新调用DOS命令 prempt 设置提示符 undelete恢复被删的文件 scandisk检测、修理磁盘

不常用DOS命令
diskcomp磁盘比较 append 设置非执行文件路径
expand 还原DOS文件 fasthelp快速显示帮助信息
fc 文件比较 interink启动服务器
setver 设置版本 intersvr启动客户机
subst 路径替换 qbasic Basic集成环境
vsafe 防病毒 unformat恢复已格式化的磁盘
ver 显示DOS版本号 smartdrv设置磁盘加速器
vol 显示磁盘卷标号 lh 将程序装入高端内存
ctty 改变控制设备 emm386 扩展内存管理
常用命令具体介绍:
一、Dir
显示目录文件和子目录列表,呵呵,这个当然是人人要知道的。
可以使用通配符(? 和 *),?表通配一个字符,*表通配任意字符
*.后缀
指定要查看后缀的文件。 上面其实也可以为“ . 后缀”,例如dir *.exe 等于dir .exe
/p
每次显示一个列表屏幕。要查看下一屏,请按键盘上的任意键。
/w
以宽格式显示列表,在每一行上最多显示 5 个文件名或目录名。
/s
列出指定目录及所有子目录中出现的每个指定的文件名。比win环境下的查找快多了
dir *.* -> a.txt 把当前目录文件列表写入a.txt
dir *.* /s -> a.txt 把当前目录文件列表写入a.txt,包括子目录下文件。
二、Attrib
显示、设置或删除指派给文件或目录的只读、存档、系统以及隐藏属性。如果在不含参数的情况下使用,则 attrib 会显示当前目录中所有文件的属性。
+r 设置只读属性。
-r 清除只读属性。
+a 设置存档文件属性。
-a 清除存档文件属性。
+s 设置系统属性。
-s 清除系统属性。
+h 设置隐藏属性。
-h 清除隐藏属性。
三、Cls
清除显示在命令提示符窗口中的所有信息,并返回空窗口,即“清屏”
四、Exit
退出当前命令解释程序并返回到系统。
五、format
格式化
/q 执行快速格式化。删除以前已格式化卷的文件表和根目录,但不在扇区之间扫描损坏区域。使用 /q 命令行选项应该仅格式化以前已格式化的完好的卷。
六、Ipconfig
显示所有当前的 TCP/IP 网络配置值、刷新动态主机配置协议 (DHCP) 和域名系统 (DNS) 设置。使用不带参数的 ipc......

热心网友 时间:2023-10-15 04:31

程序如下,实现对网页源码保存为txt文档
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class saveHtml {
/**
* 根据网址读取网页HTML内容
* @param pageUrl 网页地址
*/
public String readerPageByUrl(String pageUrl) {
URL url;
String pageString="";
try {
url = new URL(pageUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection(); //根据HttpURLConnection得到网页的输入流
InputStream is = connection.getInputStream();
StringBuffer sb=new StringBuffer();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"UTF-8")); //设置编码

String line = null;
while ((line = br.readLine()) != null) {
sb.append(line+"\n");
}
pageString=sb.toString();
} catch (Exception e) {
e.printStackTrace();
}finally{

}
return pageString;
}
/**追问这是什么编码的程序?怎么用啊??

要存成什么扩展名?

热心网友 时间:2023-10-15 04:31

获取网页内容,然后解析网页源码,提取出自己感兴趣的东西即可;
之前我做过一个解析我们学校各网站新闻页面的小工具;
用C#做的,其实就是操作字符串;
很简单的,方法都是一样的;
不过有点麻烦的是这个通用性不高;
对每一个站点都需要先手动提取其特征;

热心网友 时间:2023-10-15 04:32

你搜一下,网站整站下载,不过下来的都是静态的html页面,我用过很好用的

热心网友 时间:2023-10-15 04:30

程序如下,实现对网页源码保存为txt文档
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class saveHtml {
/**
* 根据网址读取网页HTML内容
* @param pageUrl 网页地址
*/
public String readerPageByUrl(String pageUrl) {
URL url;
String pageString="";
try {
url = new URL(pageUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection(); //根据HttpURLConnection得到网页的输入流
InputStream is = connection.getInputStream();
StringBuffer sb=new StringBuffer();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"UTF-8")); //设置编码

String line = null;
while ((line = br.readLine()) != null) {
sb.append(line+"\n");
}
pageString=sb.toString();
} catch (Exception e) {
e.printStackTrace();
}finally{

}
return pageString;
}
/**
* 写入操作
* @param filePath 静态页面路径
* @param fileStr 网页内容
* @throws Exception
*/
public void writeStringToFile(String filePath, String fileStr) throws Exception //写文件
{
File file=new File(filePath);
FileOutputStream fileout = new FileOutputStream(file);
fileout.write(fileStr.getBytes());
fileout.close();
}
/**
* 生成静态页面
* @param pageUrl 网址
* @param filePath 静态页面路径
* @throws Exception
*/
public void createStaticPage(String pageUrl,String filePath) throws Exception{
//获取网页内容
String pageStr=readerPageByUrl(pageUrl);
System.out.println(pageStr);
try {
writeStringToFile(filePath, pageStr);
} catch (Exception e) {
e.printStackTrace();
}

}
//测试
public static void main(String[] args) {
saveHtml rb=new saveHtml();
String pageUrl[]={"http://www.qiushike.com/"};// 目标网站
try {
for(int i=0;i<pageUrl.length;i++)//对多个网页进行循环保存
{
String filePath="D://wenjian"+i+".txt"; //生成文本后保存的路径
rb.createStaticPage(pageUrl[i], filePath);
}

} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

}

热心网友 时间:2023-10-15 04:30

S常用命令详解

dir 列文件名 deltree 删除目录树 cls 清屏 cd 改变当前目录
copy 拷贝文件 diskcopy 复制磁盘 del 删除文件 format 格式化磁盘
edit 文本编辑 mem 查看内存状况 md 建立子目录 move 移动文件、改目录名
more 分屏显示 type 显示文件内容 rd 删除目录
sys 制作DOS系统盘
ren 改变文件名 xcopy 拷贝目录与文件 chkdsk 检查磁盘 attrib 设置文件属性
fdisk 硬盘分区 date 显示及修改日期 label 设置卷标号 defrag 磁盘碎片整理
msd 系统检测 path 设置搜寻目录 share 文件共享 memmaker内存优化管理
help 帮助 restore 恢复备份文件 set 设置环境变量 time 显示及修改时间
tree 列目录树 debug 随机调试程序 doskey 重新调用DOS命令 prempt 设置提示符 undelete恢复被删的文件 scandisk检测、修理磁盘

不常用DOS命令
diskcomp磁盘比较 append 设置非执行文件路径
expand 还原DOS文件 fasthelp快速显示帮助信息
fc 文件比较 interink启动服务器
setver 设置版本 intersvr启动客户机
subst 路径替换 qbasic Basic集成环境
vsafe 防病毒 unformat恢复已格式化的磁盘
ver 显示DOS版本号 smartdrv设置磁盘加速器
vol 显示磁盘卷标号 lh 将程序装入高端内存
ctty 改变控制设备 emm386 扩展内存管理
常用命令具体介绍:
一、Dir
显示目录文件和子目录列表,呵呵,这个当然是人人要知道的。
可以使用通配符(? 和 *),?表通配一个字符,*表通配任意字符
*.后缀
指定要查看后缀的文件。 上面其实也可以为“ . 后缀”,例如dir *.exe 等于dir .exe
/p
每次显示一个列表屏幕。要查看下一屏,请按键盘上的任意键。
/w
以宽格式显示列表,在每一行上最多显示 5 个文件名或目录名。
/s
列出指定目录及所有子目录中出现的每个指定的文件名。比win环境下的查找快多了
dir *.* -> a.txt 把当前目录文件列表写入a.txt
dir *.* /s -> a.txt 把当前目录文件列表写入a.txt,包括子目录下文件。
二、Attrib
显示、设置或删除指派给文件或目录的只读、存档、系统以及隐藏属性。如果在不含参数的情况下使用,则 attrib 会显示当前目录中所有文件的属性。
+r 设置只读属性。
-r 清除只读属性。
+a 设置存档文件属性。
-a 清除存档文件属性。
+s 设置系统属性。
-s 清除系统属性。
+h 设置隐藏属性。
-h 清除隐藏属性。
三、Cls
清除显示在命令提示符窗口中的所有信息,并返回空窗口,即“清屏”
四、Exit
退出当前命令解释程序并返回到系统。
五、format
格式化
/q 执行快速格式化。删除以前已格式化卷的文件表和根目录,但不在扇区之间扫描损坏区域。使用 /q 命令行选项应该仅格式化以前已格式化的完好的卷。
六、Ipconfig
显示所有当前的 TCP/IP 网络配置值、刷新动态主机配置协议 (DHCP) 和域名系统 (DNS) 设置。使用不带参数的 ipc......

热心网友 时间:2023-10-15 04:31

程序如下,实现对网页源码保存为txt文档
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class saveHtml {
/**
* 根据网址读取网页HTML内容
* @param pageUrl 网页地址
*/
public String readerPageByUrl(String pageUrl) {
URL url;
String pageString="";
try {
url = new URL(pageUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection(); //根据HttpURLConnection得到网页的输入流
InputStream is = connection.getInputStream();
StringBuffer sb=new StringBuffer();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"UTF-8")); //设置编码

String line = null;
while ((line = br.readLine()) != null) {
sb.append(line+"\n");
}
pageString=sb.toString();
} catch (Exception e) {
e.printStackTrace();
}finally{

}
return pageString;
}
/**追问这是什么编码的程序?怎么用啊??

要存成什么扩展名?

热心网友 时间:2023-10-15 04:31

获取网页内容,然后解析网页源码,提取出自己感兴趣的东西即可;
之前我做过一个解析我们学校各网站新闻页面的小工具;
用C#做的,其实就是操作字符串;
很简单的,方法都是一样的;
不过有点麻烦的是这个通用性不高;
对每一个站点都需要先手动提取其特征;

热心网友 时间:2023-10-15 04:32

你搜一下,网站整站下载,不过下来的都是静态的html页面,我用过很好用的
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
...抛物线y=x2-4x+3与x轴交于A、B两点,与y轴交于点C,连AC,将直线AC向右... 抢劫罪的构成要素有哪些 抢劫罪的几个要素 抢劫罪违反了什么法律 转化型抢劫的法律认定 我想问问我的魔兽世界帐号值多少钱? 我的号能卖多少?(魔兽世界) 求评估魔兽世界账号价值,懂得来! 魔兽世界账号问题,我有一个90级的DK,想便宜出售了,直接卖了,想问问大... 魔兽世界号价值评估 火狐游览器中文版的网页源代码怎么修改或者可否修改 寻找一款火狐浏览器插件,可以直接修改网页源码,并且修改以后可以直接在网页上看出来 染发头皮很痛是什么原因啊? 染发剂弄到指甲上怎么办? 指甲凹陷,并且非常疼痛,是为什么? 手指接触染发剂会致关节痛吗 指甲里面痛是什么原因? 染发剂刺痛是怎么回事 染发剂弄指甲上洗不掉 拇指指甲根部疼痛 概率的四则运算 如果指甲一直疼怎么办? 要是染发剂吃进指甲里面怎么办?大神们帮帮忙 是先求婚还是先订婚都有什么讲究 电站年终总结 求婚之后男女之间算不算未婚夫妻 被求婚了就不是男女朋友了。是未婚夫妻了 oppo r9s图形密码忘记怎么解锁 win7的window功能中无IIS,如何安装? win7系统怎么安装IIS服务器 南昌市湾里区有线电视缴费详细地址及地图? 南昌市有线电视在叠山路哪里缴 厕所没有窗户,总有异味,咋办 崇明哪里吃大闸蟹 有没有人了解自称荷兰进口的叫mentos曼妥思的猫粮? 曼妥思薄荷糖加哪种可乐喷的最高? 到底那种可乐+哪种曼妥思喷得最高 日记:做丝网花。80字 丝网花有哪些种类啊? 什么口香糖最好吃 丝网花没有花苞怎么办? 为什么非洲农业不发达? 丝网花的材料怎么买么 魔声耳机有底噪么?今天刚买的(商品名称:魔声Beats-头戴式)音乐按了暂停为什么有电流的声音 概率问题4,请详解 安卓系统如何PPPOE拨号? 安卓pppoe拨号上网怎么设置? 安卓pppoe拨号成功了为什么无法上网 安卓平板电脑支持PPPOE有线拨号上网吗? 安卓pppoe拨号怎么用,我知道自己家的帐号密码,但是我wifi连接上了电信的WIFI用PPPOE拨号软件去拨号为什