Scrapingを使ってみる

Power BIでWebスクレイピング!データ収集のガイドライン

概要(目的・背景)

Webスクレイピングは、ウェブサイトから自動的にデータを抽出する技術で、価格比較や市場調査など多岐にわたる分野で活用されています。しかし、無秩序なスクレイピングは、サーバーへの過負荷や法的問題を引き起こす可能性があります。例えば、過剰なリクエストによりサーバーがダウンする事例も報告されています。そのため、Webスクレイピングを行う際には、技術的および倫理的なルールを遵守することが重要です。本記事では、Power BIでWebスクレイピングを始める前の基本的なルールと注意点について解説します。

読み手(誰に向けた記事か?)

この記事は、下記のような読者を想定しています。
・Webスクレイピングを始めたいと考えている初学者
Webスクレイピングの基本的なルールやマナーを理解し、適切にデータを収集することで、今後データ収集を行う方々へ役立つ情報を提供します。

ブログの目標設定(具体的な目標)

本記事の目標は、読者がWebスクレイピングを行う際に遵守すべき基本的なルールとマナーを理解し、実践できるようになることです。具体的には、以下のポイントを達成することを目指します。
・Webスクレイピングの基本的な概念と用途を理解する。
・スクレイピングを行う際の技術的なルール(例:robots.txtの確認、利用規約)を理解する。
これらの目標を達成することで、読者がWebスクレイピングを適切に活用できるようになることが期待されます。

方法(アプローチ・使用技術)

Webスクレイピングとは?

Niwa
Niwa

Scrapingとは「こすること」「けずること」を意味する。Webページからデータを取得して、不要なデータに削り取り、必要な情報を取得するイメージです。

Webスクレイピングする前のルール確認

Webスクレイピングを行う前に、必要な情報を提供しているサイトを探します。まず、サイト内のどこにその情報が掲載されているかを確認することから始めます。その次に、サイトのルールを確認します。具体的には、以下の3点を確認して、Webスクレイピングが許可されているかを確認します。

  • 利用規約
  • 使用目的/ポリシー
  • robots.txt

これらのルールを確認したうえで問題がないことを確認した後、Power BIを用いてデータを抽出します。

下記3点を必ず確認すること。

利用規約

サイトの利用規約を読み、スクレイピングが明示的に禁止されていないことを確認します。利用規約には、データの利用範囲や禁止事項が詳しく記載されています。

使用目的/ポリシー

サイト運営者が公開しているデータの使用目的や方針を確認します。これにより、スクレイピングの使用方法が運営者の意図に反していないことを確かめられます。

robots.txt

サイトのrobots.txtファイルを確認し、スクレイピングツールやボットのアクセスが許可されているかを判断します。特定のページやセクションが禁止されている場合は、それを厳守してください。

Yahoo!ファイナンスのWebサイトに対して、上記点を確認すると・・・

  • 自動化された手段によるデータ収集を禁止
    Yahoo!ファイナンスのWebサイトに対して、プログラム等を用いて機械的に取得する行為(スクレイピング等)が禁止されています。
  • サーバーへの過剰な負荷
    Webサイトやサーバーに過剰なリクエストを送信し、パフォーマンスやサービスの安定性に影響を与える行為に該当すると記載されています。

Yahoo!ファイナンスは、自社サービスの健全な運営を守るため、Webスクレイピングを明確に禁止しています。このため、Yahoo!ファイナンスのみならず、Webサービスからデータを収集する際には、事前に利用規約を確認し、許可された方法(例:公式APIの利用など)を使用することが重要です。また、スクレイピングを実行する場合は、法的・倫理的リスクを十分に理解したうえで行動する必要があります。

事例(一例)

例)Librahack事件
岡崎市立図書館の蔵書検索システムの使い勝手に不満であったため自分で作ったクローラによって、蔵書検索システムから図書の情報をWebスクレイピングすることにありました。この男性は、蔵書検索システムに執拗にリクエストを送りつけたものとして偽計業務妨害容疑で逮捕された事例があります。
※1秒に1回の頻度で1日2000回のWebスクレイピングを試みた記録があるため、相応に作りこまないと発生しないリクエスト数です。

結果(成果と評価)

ルールを守らないWebスクレイピングは、一時的には効率的に見えるかもしれませんが、結果としてサーバーのブロックや法的措置といった大きなリスクを伴います。一方で、ルールを遵守することは短期的には制約に感じることがあるものの、長期的には信頼性の向上や継続可能なデータ利用をもたらします。これは、Webスクレイピングをビジネスや研究において有効活用するための基盤となります。また、Webスクレイピングのルールを守ることは、単に自分の利益を守るだけではなく、インターネット全体の健全性を保つ重要な行動でもあります。
インターネットは共有の資源であるため、その利用にあたって他者への配慮が欠かせません。

まとめ(結論と今後の展望)

Webスクレイピングにおけるルール遵守は、データ収集プロジェクトの成功と同時に、インターネットエコシステムの維持にも寄与します。そのため、技術スキルを磨くだけでなく、法的・倫理的な観点を深く理解し、実践することが非常に重要です。Webスクレイピングを適切に行うことは、単なる「データ収集」の枠を超え、責任あるデータ活用の第一歩と考えます。

-Scrapingを使ってみる
-