网页源代码提取,用java也行,用perl也行
发布网友
发布时间:2022-04-25 15:13
我来回答
共1个回答
热心网友
时间:2023-10-11 16:05
不知道你是不是要实现抓取别人的页面进行输出……
是的话,你可以试用下面的代码。本人不会Perl,就用java的servlet实现了。希望能对你有帮助
import java.io.IOException;
import java.io.PrintWriter;
import java.net.URL;
import javax.servlet.ServletException;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import org.apache.commons.io.IOUtils;
public class GrabServlet extends HttpServlet {
public void doPost(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {
response.setContentType("text/html");
PrintWriter out = response.getWriter();
String source = "http://www.163.com";
String htmlCode = "";
try {
// 创建页面连接
URL url = new URL(source);
// 打开页面流,获取页面内容并以GB2312进行编码
htmlCode = IOUtils.toString(url.openStream(), "gb2312");
} catch (IOException e) {
e.printStackTrace();
}
// 输出页面内容
out.println(htmlCode);
out.flush();
out.close();
}
}