Python与文件操作：压缩、解压与文件遍历

在Python中，os模块是一个非常重要的内置模块，它提供了丰富的操作系统接口，允许程序员执行诸如创建、删除、移动文件，以及遍历目录结构等底层文件系统操作。：这个函数接受一个路径参数，返回一个包含指定目录下所有文件和子目录名称的列表。例如：import os：这个函数用于递归地访问目录树下的每一个目录及其包含的文件。它以生成器的形式返回三元组，分别表示当前目录路径、子目录名列表和文件名列表。

南风以南

2211人浏览 · 2024-04-28 22:19:20

南风以南 · 2024-04-28 22:19:20 发布

在这里插入图片描述

一、Python与文件操作概览

1.1 Python中的文件基本操作

1.1.1 打开和关闭文件

在Python中，文件就像一个容器，我们首先需要使用内置的open()函数来打开它。例如，打开一个名为“example.txt”的文件以读取内容：

with open('example.txt', 'r') as file:
    content = file.read()
    print(content)

这里，“r”代表读取模式，with语句确保无论发生什么情况，文件都会在操作完成后自动关闭。open()函数支持多种模式，如写入’w’、追加’a’、二进制读写’b’等。

1.1.2 文件模式详解

'r'：只读模式，文件必须存在，否则抛出异常
'w'：写入模式，若文件已存在则清空原有内容，若不存在则创建新文件
'a'：追加模式，在文件末尾添加内容，若文件不存在则创建
'x'：独占创建模式，只能创建新文件，无法打开已存在的文件
'b'：二进制模式，与上述模式结合使用，如'rb'表示读取二进制文件
't'：默认文本模式，与上述模式结合时，默认开启

1.2 文件读写操作

1.2.1 读取文件内容

文件对象提供了多个方法读取内容：

read(size)：读取size字节或直到文件结束，如果没有指定size，则读取全部内容。
readline()：读取一行内容，包含换行符。
readlines()：返回文件中所有行作为列表，每一项是一行内容。

实例：

with open('example.txt', 'r') as f:
    lines = f.readlines()
    for line in lines:
        print(line.strip())  # 输出并去除每行末尾换行符

1.2.2 写入和追加文件内容

write()方法用于向文件写入字符串，而writelines()接收一个字符串列表并逐行写入。

实例：

with open('output.txt', 'w') as out_file:
    out_file.write("Hello, World!\nThis is a test.\n")
    
# 或者写入多行
content = ["Line 1", "Line 2", "Line 3"]
with open('output.txt', 'a') as out_file:
    out_file.writelines(f"{line}\n" for line in content)

这段代码展示了如何新建一个文件并向其中写入内容，以及如何追加内容到现有文件中，利用a+模式可以同时读取和追加

二、Python文件遍历与目录管理

2.1 遍历文件与目录

2.1.1 `os`模块介绍

在Python中，os模块是一个非常重要的内置模块，它提供了丰富的操作系统接口，允许程序员执行诸如创建、删除、移动文件，以及遍历目录结构等底层文件系统操作。

os.listdir(path)：这个函数接受一个路径参数，返回一个包含指定目录下所有文件和子目录名称的列表。例如：

import os
dir_content = os.listdir('.')
for item in dir_content:
    print(item)

os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]])：这个函数用于递归地访问目录树下的每一个目录及其包含的文件。它以生成器的形式返回三元组 (dirpath, dirnames, filenames)，分别表示当前目录路径、子目录名列表和文件名列表。

for root, dirs, files in os.walk('/path/to/dir'):
    print(f'当前目录: {root}')
    print(f'子目录: {dirs}')
    print(f'文件: {files}')

2.1.2 使用`glob`模块查找特定模式的文件

glob模块提供了根据shell风格的通配符匹配文件路径的功能。

glob.glob(pattern[, recursive=False])：返回匹配给定模式的所有路径名列表。比如，要找到当前目录下所有的.txt文件，你可以这样做：

import glob
txt_files = glob.glob('*.txt')
for txt_file in txt_files:
    print(txt_file)

通配符匹配规则：

* 匹配任意字符序列（除了路径分隔符）
? 匹配任意单个字符
[seq] 匹配seq中的任意单一字符
[!seq] 匹配不在seq中的任意单一字符
{p1,p2,...} 匹配括号内的任何一个字符串

2.2 文件与目录操作

2.2.1 创建、删除和重命名文件/目录

Python的os模块还提供了用于创建、删除和重命名文件与目录的方法：

os.mkdir(path[, mode=0o777]) 创建一个目录。例如：

os.mkdir('new_directory')

os.rmdir(path) 删除一个空目录。例如：

os.rmdir('empty_directory')

os.rename(src, dst) 重命名文件或目录。例如：

os.rename('old_filename.txt', 'new_filename.txt')

以上每个操作都应配合适当的错误处理机制，以防如目标文件已存在、没有权限等问题的发生。通过捕捉OSError等异常，可以确保程序在遇到问题时仍能正常运行。

三、Python中的文件压缩与解压

3.1 基本压缩概念与算法简介

3.1.1 常见压缩格式（zip, tar, gzip等）

在计算机存储和传输过程中，压缩技术扮演着重要角色。常见的压缩格式有ZIP、TAR、GZIP等。ZIP是一种流行的数据压缩格式，常用于打包多个文件；TAR本身并不压缩数据，但通常与GZIP、BZIP2或XZ等压缩工具结合使用，形成tar.gz或tar.xz等形式；GZIP主要用于单个文件的压缩，广泛应用于Linux系统的日志文件和其他文本文件。

3.2 使用内置库进行压缩与解压

3.2.1 zipfile模块处理.zip文件

Python标准库中的zipfile模块提供了对ZIP文件的支持，它可以创建新的ZIP压缩包，添加文件到现有的ZIP文件中，以及解压ZIP文件至指定目录。

创建压缩包：

import zipfile

# 创建一个新的ZIP压缩包
with zipfile.ZipFile('archive.zip', 'w') as myzip:
    myzip.write('file1.txt')
    myzip.write('folder/file2.txt')

# 将目录及其内容压缩到ZIP文件
def zip_dir(directory):
    with zipfile.ZipFile('dir_archive.zip', 'w', zipfile.ZIP_DEFLATED) as z:
        for root, dirs, files in os.walk(directory):
            for file in files:
                z.write(os.path.join(root, file))

解压ZIP文件：

with zipfile.ZipFile('archive.zip', 'r') as myzip:
    myzip.extractall('output_folder')  # 解压到指定目录

3.2.2 tarfile模块处理.tar及tar.gz文件

tarfile模块则适用于处理TAR格式的归档文件，它可以创建、读取、修改和提取TAR文件，包括gzip压缩的.tar.gz或bz2压缩的.tar.bz2。

创建tar归档文件：

import tarfile

with tarfile.open('archive.tar', 'w') as tar:
    tar.add('file1.txt')
    tar.add('folder')

# 创建gzip压缩的tar文件
with tarfile.open('archive.tar.gz', 'w:gz') as tar:
    tar.add('file_to_compress.txt')

解压tarball文件至指定目录：

with tarfile.open('archive.tar.gz', 'r:gz') as tar:
    tar.extractall(path='output_folder')

3.3 第三方库的应用举例

3.3.1 使用`gzip`和`bz2`模块处理.gz和.bz2文件

对于单个文件的GZIP压缩和解压，Python自带了gzip模块：

压缩文件：

import gzip

with open('original.txt', 'rb') as f_in:
    with gzip.open('compressed.txt.gz', 'wb') as f_out:
        f_out.writelines(f_in)

# 解压GZIP文件
with gzip.open('compressed.txt.gz', 'rb') as f_in:
    with open('decompressed.txt', 'wb') as f_out:
        f_out.writelines(f_in)

而对于BZIP2压缩格式，Python同样提供了bz2模块：

使用bz2压缩与解压：

import bz2

# 压缩文件
with open('input.txt', 'rb') as source:
    compressed_data = bz2.compress(source.read())

with open('output.txt.bz2', 'wb') as dest:
    dest.write(compressed_data)

# 解压BZ2文件
with open('output.txt.bz2', 'rb') as source:
    decompressed_data = bz2.decompress(source.read())

with open('decompressed.txt', 'wb') as dest:
    dest.write(decompressed_data)

3.3.2 使用`lzma`模块处理.xz文件

Python内建的lzma模块支持LZMA/XZ格式的压缩与解压，其高效性使其在某些场合受到青睐：

使用lzma压缩与解压：

import lzma

# 压缩文件
with open('input.txt', 'rb') as source:
    compressed_data = lzma.compress(source.read())

with open('output.txt.xz', 'wb') as dest:
    dest.write(compressed_data)

# 解压XZ文件
with open('output.txt.xz', 'rb') as source:
    decompressed_data = lzma.decompress(source.read())

with open('decompressed.txt', 'wb') as dest:
    dest.write(decompressed_data)

通过以上实例，读者可以直观地了解Python中如何使用内置库和第三方库进行各种格式的文件压缩与解压操作，从而有效地管理和优化存储空间，提升数据传输效率。

四、进阶技巧与最佳实践

4.1 并行或异步处理大文件和大量文件

4.1.1 使用多线程或多进程加速文件操作

在处理大型文件或批量文件时，串行操作可能会导致性能瓶颈。Python提供了多线程和多进程机制，可以显著提高文件操作的效率。

多线程处理：
Python的threading模块允许开发者创建和管理线程，尽管Python全局解释器锁（GIL）限制了线程在CPU密集型任务上的并发能力，但在I/O密集型任务如文件读写中，多线程仍然能带来一定的性能提升。

import threading

def process_file(file_path):
    with open(file_path, 'r') as file:
        # 对文件进行处理...
        pass

file_list = ['file1.txt', 'file2.txt', 'file3.txt']  # 假设这是待处理的文件列表
threads = []

for file in file_list:
    thread = threading.Thread(target=process_file, args=(file,))
    thread.start()
    threads.append(thread)

for thread in threads:
    thread.join()  # 等待所有线程完成

多进程处理：
Python的multiprocessing模块更适合处理CPU密集型任务，但对于涉及磁盘I/O的大文件操作也能提高效率，因为它可以绕过GIL限制。

import multiprocessing

def process_file(file_path):
    with open(file_path, 'r') as file:
        # 对文件进行处理...
        pass

if __name__ == '__main__':
    file_list = ['file1.txt', 'file2.txt', 'file3.txt']
    pool = multiprocessing.Pool(processes=multiprocessing.cpu_count())
    
    pool.map(process_file, file_list)
    pool.close()
    pool.join()

4.1.2 异步IO在文件操作中的应用

对于更高级别的并行性和非阻塞I/O，Python 3引入了异步I/O模型，可通过asyncio模块实现。尽管异步I/O在文件操作上的优势不如网络请求明显，但在处理大量小文件或者等待磁盘响应时也可以提升效率。

import asyncio

async def process_file(file_path):
    async with aiofiles.open(file_path, 'r') as file:
        # 异步读取并处理文件内容...
        content = await file.read()
        # 对content进行处理...

async def main():
    file_list = ['file1.txt', 'file2.txt', 'file3.txt']
    tasks = [process_file(file) for file in file_list]
    await asyncio.gather(*tasks)

asyncio.run(main())

通过以上例子，可以看到Python中利用多线程、多进程和异步IO可以有效提高文件操作的效率，尤其是在面对大数据量和大规模文件处理时。在实际项目中，应根据任务特点和系统环境选择最合适的并发策略。

4.2 其他进阶技巧

缓冲区读写：合理设置缓冲区大小可以提高读写速度，减少磁盘I/O次数。
内存映射文件：利用mmap模块可以将文件映射到内存中，实现高效的文件访问。
文件分片处理：对于超大文件，可以通过切片的方式分段读取和处理，降低单次操作所需内存。

这些进阶技巧在实践中有助于解决高性能文件处理需求，

五、错误处理与异常捕获

5.1 常见文件操作错误与解决方案

在Python进行文件操作时，正确处理可能出现的错误和异常至关重要，这有助于确保程序在面临意外状况时仍能保持稳定运行。

5.1.1 文件不存在错误

当尝试打开一个不存在的文件时，Python会引发FileNotFoundError异常。以下是如何优雅地处理这一情况的例子：

try:
    with open('non_existent_file.txt', 'r') as file:
        content = file.read()
except FileNotFoundError:
    print("文件 'non_existent_file.txt' 不存在。")

5.1.2 权限不足错误

当用户试图执行超出其权限范围的文件操作（如读取受保护文件或删除他人拥有的文件），Python会抛出PermissionError。解决这类问题通常需要调整文件权限或者以具有足够权限的用户身份运行程序。

try:
    os.remove('/protected/file.txt')
except PermissionError:
    print("权限不足，无法删除 '/protected/file.txt'。请检查文件权限。")

5.1.3 文件已被其他进程占用

当文件正在被另一个进程或程序使用时，尝试对其进行读写可能会触发OSError（Windows系统下可能表现为PermissionError或WindowsError）。此时，可以采取重试机制或通知用户文件正被占用。

import time

while True:
    try:
        with open('in_use.txt', 'w') as file:
            file.write('Some content...')
            break  # 如果成功，跳出循环
    except IOError:
        print("文件 'in_use.txt' 正在被另一个进程使用，将在5秒后重试...")
        time.sleep(5)

5.1.4 其他常见错误

此外，还有如NotADirectoryError（试图将文件操作应用于目录而不是文件）、IsADirectoryError（试图打开一个目录当作文件处理）等。针对不同类型的错误，应当针对性地捕获并处理：

try:
    os.remove('directory_not_a_file')
except NotADirectoryError:
    print("删除失败，'directory_not_a_file' 是一个目录而非文件。")
except IsADirectoryError:
    print("'directory_not_a_file' 是一个目录，无法直接删除。")
except Exception as e:
    print(f"发生了未知错误：{e}")

通过熟练掌握Python的异常处理机制，开发者可以编写更加健壮、鲁棒性强的文件操作代码，有效应对各种潜在的运行时问题，从而提升整体程序质量。在实践中，不仅要关注错误的捕获和恢复，还要考虑适当的日志记录，以便于排查和定位问题根源。

六、实战案例分析

6.1 自动备份文件系统

在本章节中，我们将运用前面章节所学的知识点，设计一个简单的自动化文件备份系统。假设我们需要每天定时备份指定目录下的所有文件到一个压缩包中，并保存到另一位置。

import os
import zipfile
import datetime

def backup_files(src_dir, dest_dir, archive_name):
    # 获取当前日期时间，用于生成备份文件名
    now = datetime.datetime.now()
    backup_file = f"{archive_name}_{now.strftime('%Y%m%d%H%M%S')}.zip"

    # 定义压缩包全路径
    dest_file_path = os.path.join(dest_dir, backup_file)

    # 使用zipfile模块创建一个ZipFile对象，准备写入文件
    with zipfile.ZipFile(dest_file_path, 'w', zipfile.ZIP_DEFLATED) as backup_zip:
        # 使用os.walk遍历源目录下的所有文件和子目录
        for root, dirs, files in os.walk(src_dir):
            # 遍历当前目录下的文件
            for file in files:
                # 获取相对路径
                rel_path = os.path.relpath(os.path.join(root, file), src_dir)
                # 添加文件到压缩包
                backup_zip.write(os.path.join(root, file), arcname=rel_path)

    print(f"文件备份成功，备份文件位于：{dest_file_path}")

# 示例调用
src_dir = "/path/to/source/directory"
dest_dir = "/path/to/backup/directory"
archive_name = "my_backup"

backup_files(src_dir, dest_dir, archive_name)

6.2 大型日志文件高效读取与处理

在处理大型日志文件时，一次性加载整个文件到内存往往不可行。因此，我们将展示如何使用迭代器按行读取大型日志文件，进而进行高效处理。

def process_large_log_file(log_file_path):
    # 使用带buffering=1的open函数以行缓冲模式打开文件，减少内存消耗
    with open(log_file_path, 'r', buffering=1) as log_file:
        for line in log_file:
            # 这里仅做演示，实际可以根据日志格式解析并处理每一行
            process_line(line)

def process_line(line):
    # 假设我们只关心含有特定关键字的日志条目
    if "ERROR" in line:
        print(f"发现错误日志：{line.strip()}")

# 示例调用
large_log_file = "/path/to/large/logfile.log"
process_large_log_file(large_log_file)

以上两个实战案例展示了Python文件操作在实际项目中的应用，通过结合不同的文件操作函数和模块，我们可以构建出功能完善且高效的文件处理系统。同时，这也体现了Python在数据管理、系统维护等方面的强大功能和灵活性。在今后的学习和实践中，

七、结语

7.1 Python文件操作的重要性与实际应用

Python文件操作在软件开发、数据分析、系统运维等诸多领域扮演着不可或缺的角色。无论是日常的数据读写、文件整理、系统配置更新，还是在大数据处理、分布式计算、网络爬虫抓取等复杂场景中，理解和掌握Python文件操作技能都是至关重要的。通过对文件和目录的高效管理，可以简化数据迁移流程，提高存储利用率，增强系统的稳定性和可靠性。

在数据分析领域，分析师们频繁地与CSV、JSON、XML等各种格式的数据文件打交道，Python文件操作让数据的读取、清洗、转换和存储变得轻而易举。而在爬虫开发中，Python文件操作则用于持久化抓取的网页内容，便于后续分析和检索。

在系统运维方面，Python文件操作更是关键，如定期自动备份服务器文件，监控和处理大型日志文件，以及远程部署脚本时，都需要精确细致地进行文件操作。