用wget制作 wordpress 镜像

用wget制作开启了伪静态wordpress的镜像,下载完毕后,指向文件的超链接总是含有 p?=57882.html ,可能是后面的重名文件覆盖了前面已下载的文件所致。这样下载的冗余文件特别多,而且耗时。最后在 wget 命令中加入下列指令终于达到目的

--reject=png,jpg 拒绝包含 png和jpg的扩展名的网址。逗号分隔
--reject-regex '[\?]' 拒绝含有 ? 的 URL。逗号分隔
-X 排除包含指定目录的 URL。逗号分隔
-nc 不要下载已存在将被覆盖的文件
wget -r -p -np -k --no-check-certificate --reject-regex '[\?]' -X /soft/,/wp-json/,feed/ / https://wordpress.org
相关指令的详细解释:
-r,  --recursive                 指定递归下载
-p,  --page-requisites           下载所有用于显示 HTML 页面的图片之类的元素。
--strict-comments           用严格方式 (SGML) 处理 HTML 注释。
-np, --no-parent                 不追溯至父目录
-k,  --convert-links             让下载得到的 HTML 或 CSS 中的链接指向本地文件
--convert-file-only         只转换 URL 的文件部分 (通常所谓的 basename)
--backups=N                 写入文件 X 前,轮换移动最多 N 个备份文件
-nv, --no-verbose                关闭详尽输出,但不进入安静模式
--report-speed=类型         以 <类型> 报告带宽。类型可以是 bits
-nc, --no-clobber                不要下载已存在将被覆盖的文件
-c,  --continue                  断点续传下载文件
--start-pos=偏移量          从由零计数的 <偏移量> 开始下载
--progress=类型             选择进度条类型
--show-progress             在任意啰嗦状态下都显示进度条
-X,  --exclude-directories=列表  排除目录的列表
-R,  --reject=列表               逗号分隔的要拒绝的扩展名列表
--accept-regex=REGEX        匹配接受的 URL 的正则表达式
--reject-regex=REGEX        匹配拒绝的 URL 的正则表达式
--regex-type=类型           正则类型 (posix|pcre)
--no-check-certificate      不要验证服务器的证书。

wget -e “http_proxy=111.62.251.45:80” -k yisuo.asia

中国代理PROXY https://www.proxynova.com/proxy-server-list/country-cn/

原文链接:,转发请注明来源!

发表评论