问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

...做个批量保存网页内的源文件或文本的小程序~

发布网友 发布时间:2024-07-22 17:23

我来回答

5个回答

热心网友 时间:2024-08-04 09:49

程序如下,实现对网页源码保存为txt文档
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class saveHtml {
/**
* 根据网址读取网页HTML内容
* @param pageUrl 网页地址
*/
public String readerPageByUrl(String pageUrl) {
URL url;
String pageString="";
try {
url = new URL(pageUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection(); //根据HttpURLConnection得到网页的输入流
InputStream is = connection.getInputStream();
StringBuffer sb=new StringBuffer();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"UTF-8")); //设置编码

String line = null;
while ((line = br.readLine()) != null) {
sb.append(line+"\n");
}
pageString=sb.toString();
} catch (Exception e) {
e.printStackTrace();
}finally{

}
return pageString;
}
/**
* 写入操作
* @param filePath 静态页面路径
* @param fileStr 网页内容
* @throws Exception
*/
public void writeStringToFile(String filePath, String fileStr) throws Exception //写文件
{
File file=new File(filePath);
FileOutputStream fileout = new FileOutputStream(file);
fileout.write(fileStr.getBytes());
fileout.close();
}
/**
* 生成静态页面
* @param pageUrl 网址
* @param filePath 静态页面路径
* @throws Exception
*/
public void createStaticPage(String pageUrl,String filePath) throws Exception{
//获取网页内容
String pageStr=readerPageByUrl(pageUrl);
System.out.println(pageStr);
try {
writeStringToFile(filePath, pageStr);
} catch (Exception e) {
e.printStackTrace();
}

}
//测试
public static void main(String[] args) {
saveHtml rb=new saveHtml();
String pageUrl[]={"http://www.qiushibaike.com/"};// 目标网站
try {
for(int i=0;i<pageUrl.length;i++)//对多个网页进行循环保存
{
String filePath="D://wenjian"+i+".txt"; //生成文本后保存的路径
rb.createStaticPage(pageUrl[i], filePath);
}

} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

}

热心网友 时间:2024-08-04 09:53

你搜一下,网站整站下载,不过下来的都是静态的html页面,我用过很好用的

热心网友 时间:2024-08-04 09:50

程序如下,实现对网页源码保存为txt文档
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class saveHtml {
/**
* 根据网址读取网页HTML内容
* @param pageUrl 网页地址
*/
public String readerPageByUrl(String pageUrl) {
URL url;
String pageString="";
try {
url = new URL(pageUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection(); //根据HttpURLConnection得到网页的输入流
InputStream is = connection.getInputStream();
StringBuffer sb=new StringBuffer();
BufferedReader br = new BufferedReader(new InputStreamReader(is,"UTF-8")); //设置编码

String line = null;
while ((line = br.readLine()) != null) {
sb.append(line+"\n");
}
pageString=sb.toString();
} catch (Exception e) {
e.printStackTrace();
}finally{

}
return pageString;
}
/**

热心网友 时间:2024-08-04 09:48

S常用命令详解

dir 列文件名 deltree 删除目录树 cls 清屏 cd 改变当前目录
copy 拷贝文件 diskcopy 复制磁盘 del 删除文件 format 格式化磁盘
edit 文本编辑 mem 查看内存状况 md 建立子目录 move 移动文件、改目录名
more 分屏显示 type 显示文件内容 rd 删除目录
sys 制作DOS系统盘
ren 改变文件名 xcopy 拷贝目录与文件 chkdsk 检查磁盘 attrib 设置文件属性
fdisk 硬盘分区 date 显示及修改日期 label 设置卷标号 defrag 磁盘碎片整理
msd 系统检测 path 设置搜寻目录 share 文件共享 memmaker内存优化管理
help 帮助 restore 恢复备份文件 set 设置环境变量 time 显示及修改时间
tree 列目录树 debug 随机调试程序 doskey 重新调用DOS命令 prempt 设置提示符 undelete恢复被删的文件 scandisk检测、修理磁盘

不常用DOS命令
diskcomp磁盘比较 append 设置非执行文件路径
expand 还原DOS文件 fasthelp快速显示帮助信息
fc 文件比较 interink启动服务器
setver 设置版本 intersvr启动客户机
subst 路径替换 qbasic Basic集成环境
vsafe 防病毒 unformat恢复已格式化的磁盘
ver 显示DOS版本号 smartdrv设置磁盘加速器
vol 显示磁盘卷标号 lh 将程序装入高端内存
ctty 改变控制设备 emm386 扩展内存管理
常用命令具体介绍:
一、Dir
显示目录文件和子目录列表,呵呵,这个当然是人人要知道的。
可以使用通配符(? 和 *),?表通配一个字符,*表通配任意字符
*.后缀
指定要查看后缀的文件。 上面其实也可以为“ . 后缀”,例如dir *.exe 等于dir .exe
/p
每次显示一个列表屏幕。要查看下一屏,请按键盘上的任意键。
/w
以宽格式显示列表,在每一行上最多显示 5 个文件名或目录名。
/s
列出指定目录及所有子目录中出现的每个指定的文件名。比win环境下的查找快多了
dir *.* -> a.txt 把当前目录文件列表写入a.txt
dir *.* /s -> a.txt 把当前目录文件列表写入a.txt,包括子目录下文件。
二、Attrib
显示、设置或删除指派给文件或目录的只读、存档、系统以及隐藏属性。如果在不含参数的情况下使用,则 attrib 会显示当前目录中所有文件的属性。
+r 设置只读属性。
-r 清除只读属性。
+a 设置存档文件属性。
-a 清除存档文件属性。
+s 设置系统属性。
-s 清除系统属性。
+h 设置隐藏属性。
-h 清除隐藏属性。
三、Cls
清除显示在命令提示符窗口中的所有信息,并返回空窗口,即“清屏”
四、Exit
退出当前命令解释程序并返回到系统。
五、format
格式化
/q 执行快速格式化。删除以前已格式化卷的文件表和根目录,但不在扇区之间扫描损坏区域。使用 /q 命令行选项应该仅格式化以前已格式化的完好的卷。
六、Ipconfig
显示所有当前的 TCP/IP 网络配置值、刷新动态主机配置协议 (DHCP) 和域名系统 (DNS) 设置。使用不带参数的 ipc......

热心网友 时间:2024-08-04 09:47

获取网页内容,然后解析网页源码,提取出自己感兴趣的东西即可;
之前我做过一个解析我们学校各网站新闻页面的小工具;
用C#做的,其实就是操作字符串;
很简单的,方法都是一样的;
不过有点麻烦的是这个通用性不高;
对每一个站点都需要先手动提取其特征;
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
kmose正确使用方法? 单位高温防护欠缺致员工中暑如何对待 狗狗为什么爱看视频 360浏览器怎么设置倍速播放 ...先讲女主的灵魂飘荡了一段时间,然后重生,请问是那本? 拯救者散热器怎么开 电脑如何一键还原系统电脑一键还原怎么操作 神舟笔记本电脑怎么重新设置神舟战神bios恢复出厂设置 神舟电脑恢复出厂设置神舟战神怎么恢复原厂系统 水泥楼梯如何铺木楼梯 哪个音乐播放器版权多 丁书网小程序可以旧书回收!还可以提现 301和304哪个好 构树树苗价格多少钱? 构树苗什么时候种植 构树苗什么时候种植?杂交构树的种植方法 构树苗什么时候种植?构树的种植方法 手机镜像投屏怎么设置 刑法对几种盗窃行为没有设定的赃款数额规定是怎样的? 有谁知道:我的电脑一打开就出现“Windows找不到regedit.ex…_百度... Windows找不到文件'regedit.exe'.什么意思 我的电脑开机时,有个问题就是显示"WINDOWS找不到文件Regedit.exe" 我电脑不了注册表``提示windows找不到文件regidit 为什么我的电脑打不开注册表了? 电脑注册表找不到regedit怎么办啊? word文档电子书怎么用吗word文档怎么做电子书 如何用WORD排版做一本书如何用word排版做一本书 哈弗H6开启暖风启停功能失灵是什么原因? 求郑源高安冷漠张杰欢子六哲谁才是情歌王子?个人以为郑源你们呢?_百度... 拖欠租金未催告能解除合同吗 国内播放器音乐版权排行 ...英文歌,DJ Jump &amp; Jenny Dee - Love Is Gone asdsadas是什么意思 Now You'Re Gone [Dj Alex Extended Mix] 歌词 learn the love of reading this year什么意思 4、Look at public sign, it means you shouldn’t keep off the gras... Now You'Re Gone [Fonzerelli Remix] 歌词 Now You'Re Gone [Fonzerelli Remix Long Version] 歌词 Now You'Re Gone [Sound Selektaz Remix] 歌词 ...在decision一栏里显示的是admit-alternate program,什么意思... 注册安全工程师与安全员c证有区别吗? 开迈巴赫的男人会找什么样的女人 中考志愿怎么录取规则? 头发烫伤怎么紧急补救 烫头发烫伤皮肤怎么处理 跪求Discovery荒野求生(MAN VS WILD)字幕 求荒野求生秘技 美国版1-3季字幕 如何锻炼自己的说话技巧和社交能力有好的方 有什么方法可以锻炼自己的说话能力呢? 怎样可以锻炼自己的说话能力?