.net column
.NET開発者のためのブログメディア

Pythonのreadlineメソッドの振る舞いとは?文字コードによる違いやreadlineメソッドの使い方を紹介

 
Pythonのreadlineメソッドの振る舞いとは?文字コードによる違いやreadlineメソッドの使い方を紹介
SE
Pythonのファイルオブジェクトに含まれるreadlineメソッドについて教えてください。
PM
分かりました。ファイルのオープンモードや文字コード、改行コードなどの違いによるreadlineメソッドの振る舞い方についてサンプルプログラムを用いて解説いたしましょう。

Pythonのreadlineメソッドの振る舞い


プログラミング言語Pythonのファイルオブジェクトに含まれるreadlineメソッドについて解説します。Pythonのファイルオブジェクトに含まれる同様のメソッドにread、readlinesというものもあります。

readlineメソッドは比較的大きなテキストファイルを1行ずつ読み込んで処理するときに適しており、それに対してreadメソッドは比較的大きなファイルを1文字ずつ読み込んで処理するとき、または小さなファイルを一括して読み込むときに適しています。

readlinesメソッドは比較的小さなテキストファイルを一括して読み込み、1行ずつ処理するときに適しています。

以下に出てくるプログラムはPython3上で動作させてください。動作確認はWindowsのPython3.9.1で行いました。

また、サンプルプログラムの実行結果(出力されたファイル)を確認するには文字コードが分かるテキストエディタかバイナリファイルエディタなどをご利用ください。

改行コードによる違い

UTF‐8のファイルをテキストモードでオープンした場合、PythonのreadlineメソッドはCR+LF、CR、LFのいずれの改行コードも受け付けてくれます。異なる改行コードが混ざっていても問題なく動作します。

以下に改行コードによる違いが無いことを確認するためのサンプルプログラム(Sample1.py)と、異なる改行コードを出力するための(Sample1.pyの入力用ファイル作成)プログラムを紹介します。

改行コードによる違いが無いことを確認するサンプルプログラム(Sample1.py)

下記のプログラムは改行コードによる違いが無いことを確認するためのサンプルプログラム(Sample1.py)です。

testfile1~4.txtのテキストファイルをreadlineメソッドで読み込み、testfile1~4a.txtを出力するものです。

Sample1.py入力ファイル出力プログラム(testfile1.py)

サンプルプログラム(Sample1.py)の入力用テキストファイル(testfile1~4.txt)を出力します。なお、出力されるファイルの文字コードはUTF‐8です。

文字コードによる違い

次は文字コードによる違いを見てみることにします。Pythonで文字コードの異なるデータを扱う場合には、通常str型に変換する必要があります。

文字コードを変換するタイミングは2つあり、ファイルオープン時に文字コードを指定して変換するか、バイナリモードでオープンし、読み込んでから文字コード変換するかのいずれかになります。

結論から言えば、ファイルオープン時に文字コードを指定する方法の方がお勧めです。理由はいずれの文字コードおよび改行コードであっても正常に動作するためです。

以下にサンプルプログラム(Sample2.py、Sample3.py)および、その入力用ファイル作成プログラム(testfile2.py)を紹介します。

ファイルオープン時に文字コードを指定(Sample2.py)

Python3ではファイルオープン時に文字コードを指定して読み込むことができます。改行コードはCR+LF、CR、LFのいずれでも認識されます。

ただし、1行読み込み時に改行コードがCR+LF(実行環境に依存)に統一されてしまいます。改行コードがCR+LFに統一されてしまっても問題ない場合は、この方法がお勧めです。

ファイルをバイナリモードでオープンしてから文字コード変換

文字コードを替えたテキストファイル(異なる改行コード混合)をバイナリモードで読み込んでみましょう(Sample3.py)。

print文の出力をご覧いただくと分かりますが、「東京神奈川」および「埼玉群馬」が繋がって出力されてしまいます。これはCRのみの改行が改行コードとして認識されておらず、2行がまとめて読み込まれてしまっているためです。

また、utf-16beをutf-16leに換えて実行すると文字コード変換の行でデコードエラーになりました。そのため、特に理由がない限りはファイルオープン時に文字コードを指定する方法を使うようにした方が良い結果が得られるでしょう。

Sample2~3.py入力用ファイル出力プログラム(testfile2.py)

Sample2.pyおよびSample3.pyの入力用ファイルを出力するためのプログラムです。出力されるファイルの改行コードはCR+LF、CR、LFが混ざったファイルになります。

Pythonのreadlineメソッドの使い方

以上のことから、readlineメソッドを使用する場合にはファイルオープン時に文字コードを指定して処理した方が良いでしょう。

もし、改行コードが変わってしまうことが問題となる場合にはテキストデータとしてではなくバイナリデータとして処理すべきでしょう。つまり、「readlineメソッドは使わない」ということです。

なぜならテキストデータにおける改行コードは、あくまで「改行」の意味しかなく、改行コード自体は何であっても(変更されたとしても)問題ないはずだからです。

SE
Pythonのファイルのオープンモードや文字コード、改行コードなどの違いによるreadlineメソッドの振る舞い方についてよく分かりました。
PM
ご紹介したソースコードを参考に、ぜひご自身でもソースコードを書いてみてください。

最後に

随分と細かなところを解説してしまいましたが如何でしたでしょうか。通常はここまで気にしなくても問題ないはずですが、文字コードと改行コードが異なるテキストファイルを処理するときにはつまずく場合があるでしょう。

最後まで読んでくれたあなたのお役に立てれば幸いです。


.NET分野でのキャリアアップをお考えの方は、現在募集中の求人情報をご覧ください。

また、直接のエントリーも受け付けております。

エントリー(応募フォーム)

Search

Popular

reccomended

Categories

Tags