提取 TARXZ 文件

无限制作业。文件大小达到 2.5GB。永久免费。

拖放或点击选择

私密和安全

一切都在您的浏览器中进行。您的文件绝不接触我们的服务器。

极速

无需上传，无需等待。在您拖放文件的瞬间即可转换。

完全免费

无需帐户。无隐藏费用。无文件大小限制花招。

什么是TARXZ格式?

TAR XZ

Web ARChive (WARC) 格式是一种用于归档网络爬取数据的标准文件格式。它是由国际互联网保存联盟 (IIPC) 开发的，是对较旧的 Internet Archive ARC 格式的改进。WARC 文件包含一系列连接的内容块，每个内容块都由纯文本标题和二进制内容数据组成，使其更适合长期保存和访问基于网络的资源。

WARC 文件旨在存储主流互联网应用层协议（如 HTTP、DNS 和 FTP）的有效载荷内容和控制信息。每个 WARC 文件都是一个自包含的归档文件，允许它在一个文件中存储多个离散资源。这使得它成为网络爬虫存储和处理大量网络数据的高效且便捷的格式。

WARC 格式规范定义了几种类型的记录，每种记录在归档过程中都有特定的用途： - `warcinfo`：包含 WARC 文件本身的元数据，例如用于创建它的软件、创建日期以及有关爬取的任何其他信息。 - `response`：存储由 Web 服务器返回的 HTTP 响应消息，包括标头和正文。 - `request`：存储由爬虫发送到 Web 服务器的 HTTP 请求消息。 - `metadata`：包含有关资源的其他信息，例如病毒扫描的结果或从 HTML 页面中提取的文本。 - `revisit`：表示自上次捕获以来资源的内容没有更改，从而可以更有效地存储和重放 Web 归档。 - `conversion`：存储将资源从一种格式转换为另一种格式的结果，例如将 HTML 页面转换为纯文本。

每个 WARC 记录都由纯文本标题和二进制内容块组成。标题包含提供有关记录的元数据的键值对，例如 WARC 记录类型、资源的 URI、捕获日期和时间以及内容长度。二进制内容块存储资源的实际数据，例如 HTTP 响应正文或 FTP 传输的有效载荷。

WARC 格式的一个主要优点是它能够在一个文件中存储多个资源，同时保持每个资源的完整性和上下文。这是通过在 WARC 文件中的记录中使用分层命名方案来实现的。每个记录都被分配一个唯一标识符，该标识符由一个强制性文件名和一个可选记录 ID 组成。这允许在 WARC 文件中轻松检索和管理各个资源。

WARC 文件还支持压缩，这有助于减少存储需求并提高传输速度。与 WARC 文件一起使用最常见的压缩算法是 gzip 和 bzip2。压缩的 WARC 文件通常分别具有扩展名 `.warc.gz` 或 `.warc.bz2`。

为了促进 WARC 文件的处理和分析，已经开发了各种软件工具和库。其中包括像 Heritrix 这样的网络爬虫，它可以直接输出 WARC 文件，以及像 OpenWayback 这样的工具，它可以从 WARC 文件中重放已归档的网页。编程库，例如 Java Web Archive Toolkit (JWAT) 和 Python WarcIO 库，提供了用于读取、写入和操作 WARC 文件的 API。

WARC 格式已成为网络归档的事实标准，这要归功于它的稳健性、灵活性以及参与网络保存的机构和组织的广泛采用。它已经能够创建大规模的网络归档，例如 Internet Archive 的 Wayback Machine，其中包含自 1996 年以来捕获的超过 4750 亿个网页。

总之，WARC 格式是为后代保存和访问基于网络的信息的关键工具。它的标准化结构、对多种记录类型支持以及存储内容和元数据的能力使其成为归档不断增长和不断发展的网络的理想格式。随着互联网在我们生活中扮演着越来越重要的角色，WARC 格式无疑将仍然是网络保存工作的重要组成部分。

文件压缩通过减少冗余，让相同的信息占用更少的比特。可压缩的上限受信息论约束：对于无损压缩，上界是信源熵（参见香农的信源编码定理及其 1948 年的原始论文《通信的数学理论》）。对于有损压缩，码率与感知质量之间的权衡由率失真理论描述。

两大支柱：建模与编码

大多数压缩器分两步。首先，模型预测或揭示数据中的结构。然后，编码器把这些预测变成近乎最优的比特模式。一个经典的建模家族是 Lempel–Ziv：LZ77 (1977)和 LZ78 (1978) 会检测重复子串并输出引用而不是原始字节。在编码端，霍夫曼编码（见原始论文1952）会为更常见的符号分配更短的代码。算术编码和范围编码能更贴近熵极限，而现代的非对称数值系统（ANS）用查表实现获得相似的压缩率。

常见格式的实际做法

DEFLATE（被 gzip、zlib 与 ZIP 采用）结合了 LZ77 和霍夫曼编码。其规范完全公开：DEFLATERFC 1951、zlib 封装RFC 1950以及 gzip 文件格式RFC 1952。Gzip 面向流式传输并明确不提供随机访问。PNG 图像标准化将 DEFLATE 作为唯一的压缩方法（窗口最多 32 KiB），可见 PNG 规范“Compression method 0… deflate/inflate… at most 32768 bytes”和W3C/ISO PNG 第二版。

Zstandard (zstd)： 面向高压缩率与快速解压的通用压缩器。格式记录在RFC 8878（还有HTML 镜像）以及 GitHub 上的参考规范文档。与 gzip 类似，基本帧不追求随机访问。zstd 的拿手好戏是字典：从语料中抽取的小样本能显著改善大量小文件或相似文件的压缩（参见python-zstandard 字典文档与Nigel Tao 的示例）。各实现同时支持“无结构”和“有结构”字典（讨论）。

Brotli： 为网页内容（例如 WOFF2 字体、HTTP）优化，混合静态字典与类似 DEFLATE 的 LZ+熵编码核心。规范见RFC 7932，其中也指出滑动窗口大小为 2^WBITS-16，WBITS 取值 [10, 24]（1 KiB-16 B 到 16 MiB-16 B），并且不尝试随机访问。Brotli 常在网页文本上优于 gzip，同时保持快速解码。

ZIP 容器： ZIP 是一种文件归档格式，可存储使用多种压缩算法（deflate、store、zstd 等）的条目。事实标准是 PKWARE 的 APPNOTE（参见APPNOTE 门户、托管副本以及美国国会图书馆的概览ZIP File Format (PKWARE)/ZIP 6.3.3）。

常见问题解答

什么是文件压缩？

文件压缩是一种减小文件或文件集大小的过程，通常用于节省存储空间或加速网络传输。

文件压缩是如何工作的？

文件压缩通过识别和删除数据中的冗余来工作。它使用算法在更小的空间中编码原始数据。

文件压缩有哪些类型？

文件压缩的两种主要类型是无损压缩和有损压缩。无损压缩允许完美恢复原始文件，而有损压缩则以损失部分数据质量为代价，实现更大的大小减小。

文件压缩工具的例子是什么？

文件压缩工具的一个流行例子是WinZip，它支持包括ZIP和RAR在内的多种压缩格式。

文件压缩会影响文件的质量吗？

对于无损压缩，质量保持不变。然而，对于有损压缩，由于它消除了较不重要的数据以更大程度地减小文件大小，因此可能会有明显的质量下降。

文件压缩安全吗？

是的，就数据完整性而言，文件压缩是安全的，尤其是无损压缩。然而，像任何文件一样，压缩的文件可能会被恶意软件或病毒攻击，因此总是必要的有安装可靠的安全软件。

哪些类型的文件可以被压缩？

几乎所有类型的文件都可以被压缩，包括文本文件、图像、音频、视频和软件文件。然而，可达到的压缩水平可以在文件类型之间大大变化。

ZIP文件是什么意思？

ZIP文件是一种使用无损压缩来减小一个或多个文件大小的文件格式。ZIP文件中的多个文件有效地被捆绑在一起成为一个单一的文件，这也使得分享变得更容易。

我可以压缩一个已经压缩的文件吗？

技术上，是的，尽管额外的减小大小可能是微不足道的甚至适得其反。压缩一个已经压缩的文件有时可能会增加它的大小，由于压缩算法添加的元数据。

我如何解压文件？

要解压文件，你通常需要一个解压或解压缩工具，如WinZip或7-Zip。这些工具可以从压缩格式提取原始文件。

提取 TARXZ 文件

拖放 或 点击选择

私密和安全

一切都在您的浏览器中进行。您的文件绝不接触我们的服务器。

极速

无需上传，无需等待。在您拖放文件的瞬间即可转换。

完全免费

无需帐户。无隐藏费用。无文件大小限制花招。

什么是TARXZ格式?

TAR XZ

两大支柱：建模与编码

常见格式的实际做法

常见问题解答

什么是文件压缩？

文件压缩是如何工作的？

文件压缩有哪些类型？

文件压缩工具的例子是什么？

文件压缩会影响文件的质量吗？

文件压缩安全吗？

哪些类型的文件可以被压缩？

ZIP文件是什么意思？

我可以压缩一个已经压缩的文件吗？

我如何解压文件？

支持的格式

7zip.7z

7-Zip

APK.apk

安卓包

AR.ar

ar（Unix 归档）

BIN.bin

二进制

BSD TAR.tar

BSD tar

CPIO.cpio

CPIO 归档

CRX.crx

Chrome 扩展

DEB.deb

Debian 包

EGG.egg

Egg

GNU TAR.tar

GNU tar

IPA.ipa

iOS 应用

ISO.iso

ISO 镜像

JAR.jar

Java 归档

LHA.lha

LHA 归档

LXF.lxf

LXF（乐高交换格式）

LZH.lzh

LZH 归档

PAX.pax

便携式归档交换

PAXR.pax

精简版便携式归档交换

PKZ.zip

PKZ（PKZip）

POSIX.tar

POSIX

PWB.cpio

PWB（程序员的工作台）

RAR.rar

RAR 归档

RAW.img

原始格式

RPAX.rpax

冗余 PAX（便携式归档交换）

SHAR.shar

Shell 归档

TARGZ.tar.gz

TAR GZ

TARBZ2.tar.bz2

TAR BZ2

TARXZ.tar.xz

TAR XZ

拖放或点击选择