用wget制作 wordpress 镜像

用wget制作开启了伪静态wordpress的镜像,下载完毕后,指向文件的超链接总是含有 p?=57882.html ,可能是后面的重名文件覆盖了前面已下载的文件所致。这样下载的冗余文件特别多,而且耗时。最后在 wget 命令中加入下列指令终于达到目的

--reject=png,jpg 拒绝包含 png和jpg的扩展名的网址。逗号分隔
--reject-regex '[\?]' 拒绝含有 ? 的 URL。逗号分隔
-X 排除包含指定目录的 URL。逗号分隔
-nc 不要下载已存在将被覆盖的文件

wget -r -p -np -k --no-check-certificate --reject-regex '[\?]' -X /soft/,/wp-json/,feed/ / https://wordpress.org

相关指令的详细解释:
  -r,  --recursive                 指定递归下载
  -p,  --page-requisites           下载所有用于显示 HTML 页面的图片之类的元素。
       --strict-comments           用严格方式 (SGML) 处理 HTML 注释。
  -np, --no-parent                 不追溯至父目录
  -k,  --convert-links             让下载得到的 HTML 或 CSS 中的链接指向本地文件
       --convert-file-only         只转换 URL 的文件部分 (通常所谓的 basename)
       --backups=N                 写入文件 X 前,轮换移动最多 N 个备份文件
  -nv, --no-verbose                关闭详尽输出,但不进入安静模式
       --report-speed=类型         以 <类型> 报告带宽。类型可以是 bits
  -nc, --no-clobber                不要下载已存在将被覆盖的文件
  -c,  --continue                  断点续传下载文件
       --start-pos=偏移量          从由零计数的 <偏移量> 开始下载
       --progress=类型             选择进度条类型
       --show-progress             在任意啰嗦状态下都显示进度条
  -X,  --exclude-directories=列表  排除目录的列表
  -R,  --reject=列表               逗号分隔的要拒绝的扩展名列表
       --accept-regex=REGEX        匹配接受的 URL 的正则表达式
       --reject-regex=REGEX        匹配拒绝的 URL 的正则表达式
       --regex-type=类型           正则类型 (posix|pcre)
	   
       --no-check-certificate      不要验证服务器的证书。

wget -e “http_proxy=111.62.251.45:80” -k ysuo.org

中国代理PROXY https://www.proxynova.com/proxy-server-list/country-cn/

原文链接:,转发请注明来源!
评论已关闭。