Python 中如何读取大文件，例如内存只有 4G，如何读取一个大小为 8G 的文件

Posted 2024-10-8 Updated 2024-10- 9

By RWO.

4~5 min read

读取大文件的高效方法

在处理大文件时，内存限制是一个需要考虑的重要问题。以下是几种读取大文件的方法，可以确保内存使用效率，提高数据处理的稳定性。

逐行读取

逐行读取可以避免将整个文件一次性加载到内存中。

with open('large_file.txt', 'r') as file:
    for line in file:
        # 处理每一行
        process(line)

这种方法适用于文本文件，逐行读取和处理数据，内存占用小。

使用迭代器

使用迭代器可以有效控制内存占用，特别是读取固定大小的数据块时。

def read_in_chunks(file_object, chunk_size=1024):
    while True:
        data = file_object.read(chunk_size)
        if not data:
            break
        yield data

with open('large_file.txt', 'r') as file:
    for chunk in read_in_chunks(file):
        # 处理每个块
        process(chunk)

这种方法适用于需要按块处理数据的场景。

使用 `mmap` 模块

mmap 模块允许将文件映射到内存中，类似于直接在内存中操作文件。

import mmap

with open('large_file.txt', 'r+b') as f:
    mmapped_file = mmap.mmap(f.fileno(), 0)
    for line in iter(mmapped_file.readline, b""):
        # 处理每一行
        process(line)
    mmapped_file.close()

这种方法适用于需要随机访问大文件的场景，可以有效提高访问速度。

使用 Pandas 逐块读取

对于处理大型数据文件（如 CSV），可以使用 Pandas 的 read_csv 方法的 chunksize 参数。

import pandas as pd

chunksize = 10 ** 6
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
    # 处理每个数据块
    process(chunk)

这种方法适用于数据分析场景，可以逐块读取和处理大型数据文件。

总结

以上方法可以帮助你在内存有限的情况下高效地读取和处理大文件。选择最适合你需求的方法，以确保程序稳定运行。

逐行读取：适用于逐行处理文本文件。
使用迭代器：适用于按块处理数据。
使用 mmap 模块：适用于需要随机访问大文件。
使用 Pandas 逐块读取：适用于数据分析，处理大型 CSV 文件。

合理选择和使用这些方法，可以在内存有限的情况下，高效地处理大文件数据。感谢您的阅读，希望这些方法能帮助您提升数据处理效率！

短视频

每日一点短视频 Python

License: CC BY 4.0

读取大文件的高效方法

逐行读取

使用迭代器

使用 mmap 模块

使用 Pandas 逐块读取

总结

使用 `mmap` 模块