PowerShellでcurlを使いこなそう!スクレイピングなどを実例解説

PowerShellでcurlを使いこなそう!スクレイピングなどを実例解説
基本情報技術者試験の試験対策はこちら>>
最新情報や関心のある情報を毎日お届け。  FEnetインフラメールマガジン    メルマガ登録はこちらから>>

PowerShellのcurlとは?


PowerShellはWindowsに標準搭載されているシェル機能です。シェルとはウィンドウ上でコマンドを入力することで様々なことができるアプリです。Windowsには昔からコマンドプロンプトというシェルがありますが、PowerShellはそれの機能強化版と言えます。

curlはHTTPS、FTP、POP3、SMTPなどの様々なプロトコルの通信ができるコマンドアプリです。PowerShellではこのcurlを使えます。この記事ではcurlを使ったサンプルを紹介するので是非ご覧ください。

PowerShellのcurlは本物ではない

PowerShellでcurlが使えると言いましたが、実はそれはcurlであってcurlでないと言えます。PowerShellでGet-Aliasを実行してください。すると出力の中に

Alias curl -> Invoke-WebRequest

があります。PowerShellでcurlを実行した場合、実際はInvoke-WebRequestが実行されているのです。そのため実際のcurlと違いもあります。この記事ではPowerShellでcurlと入力するという前提で進めます。

HTTPSのレスポンスを取得する

まずはHTTPSを試しましょう。PowerShellで以下のように入力してください。

curl https://www.google.com

すると以下のようにレスポンス内容が表示されます。

StatusCode : 200
StatusDescription : OK
Content :
(以下略)

ファイルの保存は以下のようにすればできます。コンソールでは出力が省略されるのでファイルに保存するとよいでしょう。

curl https://www.google.com > tmp.txt

一部のみを取得する方法

特定の部分だけ必要な場合は以下のように一旦変数に入れて、パラメータを指定します。

$response = curl https://www.google.com
$response.Headers

結果は以下のようにヘッダが表示されます。

Key Value
— —–
X-XSS-Protection 0
X-Frame-Options SAMEORIGIN
Cache-Control private, max-age=0
Content-Type text/html; charset=UTF-8
(以下略)

サーバからのエラーレスポンスを取得

存在しないURLを指定した時は、以下のようにエラーになります。

curl https://(存在しないURL)
curl : リモート名を解決できませんでした。: ‘(存在しないURL)’
(以下略)

この時、$error[0]にサーバからのエラー応答が入っています。

$error[0].Exception.Message
リモート名を解決できませんでした。: ‘(存在しないURL)’

POSTメソッドで送信する

curlはGETメソッドだけでなくPOSTメソッドでも送信できます。以下はparam1とparam2の値をPOSTでサーバに送信します。

curl -Method Post -Body ‘param1=value1&param2=value2’ http://(POSTを受け付けるURL)

受ける側は以下のようなPHPコードになっているとします。

<html>
<head>
<meta charset=”UTF-8″>
<title>Test Page</title>
</head>
<body>
<?php
echo $_POST[“param1”] . “<br />” . $_POST[“param2”];
?>
</body>
</html>

POST送信の結果

結果は以下のようになります。上のサンプルのPHPでは受け取ったparam1とparam2をechoでそのまま表示していますが、それをcurlでContentとして受け取って、キャッチボールできたことがわかります。POSTのテストをしたい時は便利に使えるでしょう。

StatusCode : 200
StatusDescription : OK
Content : <html>
<head>
<meta charset=”UTF-8″>
<title>Test Page</title>
</head>
<body>
value1<br />value2</body>
</html>

スクレイピングのサンプル

Webサイトの中身をチェックすることをスクレイピングと言いますが、curlでも行えます。以下は特定の文字列がある箇所をリストアップします。

$response = curl https://www.google.com/
$response.Links |
Where-Object {
$_.href -like “*youtube.com*”
}|
Select-Object innerText, href |
Format-List

スクレイピングのサンプルの解説

上のサンプルを説明します。まずcurlの結果を$responseに取得して、その中でhref属性にyoutube.comという文字列が含まれる箇所をWhere-Objectで抽出します。その結果からSelect-ObjectでinnterText属性とhref属性を取り出して、Format-Listで見やすくします。

実行結果は以下のようになります。YouTubeにリンクしている箇所を取り出せています。

innerText : YouTube
href : https://www.youtube.com/?gl=JP&tab=w1

FTPのサンプル

HTTPSだけでなく別のプロトコルも試してみます。FTPを実行してみましょう。PowerShellのcurlでは、ダウンロードのみ行えます。アップロードはできません。以下がサンプルです。

$username = ‘(アカウント名)’
$password = ‘(パスワード)’
$url = ‘ftp:(FTPサーバのアドレス)’

$pstr = ConvertTo-SecureString $password -AsPlainText -Force
$psc = New-Object System.Management.Automation.PSCredential($username,$pstr)

curl -Uri $url”$2f/(ダウンロードするファイルパス)” -OutFile “(保存するファイルパスとファイル名)” -Credential $psc

FTPサンプルの解説

上のサンプルを説明します。$usernameにはFTPアカウント名を入れます。$passwordはパスワード、$urlはFTPサーバのアドレスを設定します。ConvertTo-SecureStringはパスワードをセキュア文字列に変換します。

次にPSCredentialで、ユーザ名とパスワードからクレデンシャル情報の$pscを作成します。そしてcurlでダウンロードするファイル、出力先ファイル名、クレデンシャル情報を指定するとファイルをダウンロードできます。

ただしWindowsのコマンドプロンプトにはFTPコマンドがあるので、動作をもっとカスタマイズしないとcurlで行う意味はないでしょう。

PowerShellのcurlを活用しよう!

PowerShellのcurlについて解説しましたが、ご理解頂けましたでしょうか。Webサイトを解析するスクレイピングで活用できそうですが、アイデア次第で色々なことができるでしょう。

インフラエンジニア専門の転職サイト「FEnetインフラ」

FEnetインフラはサービス開始から10年以上『エンジニアの生涯価値の向上』をミッションに掲げ、多くのエンジニアの就業を支援してきました。

転職をお考えの方は気軽にご登録・ご相談ください。