使用 Python 高效操作 Excel 文件｜Pandas 與 OpenPyXL 活用指南│Pythonプログラミングの世界

1. 使用 Python 操作 Excel 檔案的便利性

1.1 背景

Excel 廣泛應用於資料管理與商業報告的製作，作為高效處理數據的工具發揮著重要作用。然而，若手動處理資料，不僅耗時，還容易出錯。因此，透過 Python 的自動化腳本讀取與處理 Excel 資料，可以大幅提升工作效率與準確性。

1.2 Python 的優勢

Python 是一種能以簡潔程式碼執行複雜操作的程式語言，透過 Pandas 與 OpenPyXL 等函式庫，可以輕鬆讀取與編輯 Excel 檔案。充分利用 Python 的便利性，可以顯著提升業務的自動化與作業效率。

2. 讀取 Excel 檔案的主要 Python 函式庫介紹

2.1 使用 Pandas 讀取 Excel

Pandas 是專為資料分析與處理設計的 Python 函式庫，可輕鬆讀取 Excel 檔案。使用 read_excel() 函數，可以將 Excel 資料載入為 DataFrame，便於後續加工與分析。

import pandas as pd

# 讀取 Excel 檔案
df = pd.read_excel('example.xlsx')
print(df)

操作多個工作表

Pandas 也能輕鬆讀取包含多個工作表的 Excel 檔案。使用 sheet_name=None 可以將所有工作表讀取為字典格式。

df_sheets = pd.read_excel('example.xlsx', sheet_name=None)
for sheet_name, df in df_sheets.items():
    print(f"工作表: {sheet_name}")
    print(df)

2.2 使用 OpenPyXL 讀取 Excel

OpenPyXL 是一款支援編輯與格式化 Excel 檔案的函式庫，適合直接操作特定儲存格或行列。此外，它可以保留 Excel 的格式與圖表，因此也適用於自動化產生商業文件。

from openpyxl import load_workbook

# 讀取 Excel 檔案
wb = load_workbook('example.xlsx')
ws = wb['Sheet1']

# 取得特定儲存格的值
cell_value = ws['A1'].value
print(cell_value)

3. Pandas vs OpenPyXL: 應該選擇哪一個？

3.1 效能差異

Pandas 在處理大量數據的統計與篩選時非常高效，但處理大規模 Excel 檔案時，可能會消耗較多記憶體。另一方面，OpenPyXL 在記憶體使用上較為節省，並且透過 read_only=True 選項，可以更有效率地讀取 Excel 檔案。

# OpenPyXL 讀取模式設定為唯讀
wb = load_workbook('large_file.xlsx', read_only=True)

3.2 功能與適用範圍

Pandas 適用於數據分析與統計處理，能夠以 DataFrame 格式快速進行數據處理與分析。而 OpenPyXL 更適合直接編輯 Excel 檔案，並支援 VBA、圖表建立等功能。因此，若主要目的是數據處理，Pandas 會是更好的選擇；若需保留 Excel 格式並進行編輯，OpenPyXL 會更合適。

4. 實際應用範例：從讀取 Excel 到數據處理

4.1 基本的 Excel 檔案讀取

以下是使用 Pandas 讀取 Excel 檔案的簡單範例。

df = pd.read_excel('sales_data.xlsx')
print(df)

4.2 操作特定工作表或儲存格

使用 OpenPyXL 讀取特定工作表或儲存格，並寫入新數據。

from openpyxl import load_workbook

wb = load_workbook('sales_data.xlsx')
ws = wb['2023']
print(ws['A1'].value)

# 寫入新數據
ws['B1'] = '新數據'
wb.save('updated_sales_data.xlsx')

4.3 篩選與統計數據

使用 Pandas 進行數據篩選與統計計算，這裡以篩選 9 月的銷售數據並計算總銷售量為例。

filtered_df = df[df['日期'].between('2023-09-01', '2023-09-30')]
total_sales = filtered_df['銷售數量'].sum()
print(f"9 月的銷售總額: {total_sales}")

5. 操作 Excel 檔案時的注意事項與最佳實踐

5.1 錯誤處理的實作

在讀取 Excel 檔案時，如果檔案不存在或數據格式不符，可能會發生錯誤。因此，實作錯誤處理機制非常重要，以確保程式不會意外崩潰。

try:
    df = pd.read_excel('non_existent_file.xlsx')
except FileNotFoundError as e:
    print(f"錯誤: 找不到檔案: {e}")

5.2 文字編碼與格式注意事項

如果 Excel 檔案包含中文等多國語言字符，應設定正確的編碼，以避免文字顯示錯亂（如亂碼問題）。

df = pd.read_csv('data.csv', encoding='utf-8')

5.3 高效處理大規模數據

當處理大規模 Excel 檔案時，可利用 Pandas 的 chunksize 參數或 OpenPyXL 的 read_only 模式來提高效率。

# 使用 Pandas 的 chunksize 逐塊讀取大型檔案
chunks = pd.read_csv('large_data.csv', chunksize=1000)
for chunk in chunks:
    print(chunk)

5.4 使用 OpenPyXL 保留格式與製作圖表

OpenPyXL 可在保持 Excel 檔案原始格式的同時，進行數據編輯與圖表建立。

from openpyxl.chart import BarChart, Reference

# 建立圖表
chart = BarChart()
data = Reference(ws, min_col=2, min_row=1, max_col=2, max_row=10)
chart.add_data(data, titles_from_data=True)
ws.add_chart(chart, "E5")

6. 結論: 使用 Python 提高 Excel 操作效率

Pandas 和 OpenPyXL 各自適用於不同的場景，若主要進行數據分析，Pandas 是最佳選擇，而若需要直接操作 Excel 檔案、編輯格式或保留 VBA 程式碼，OpenPyXL 更為適合。透過 Python 自動化 Excel 操作，不僅能提升數據處理效率，還能大幅提升工作生產力。

使用 Python 高效操作 Excel 文件｜Pandas 與 OpenPyXL 活用指南