Scrapingを使ってみる

Power BIでウェブスクレイピング! データ収集を始めよう

概要(目的・背景)

ビジネスの現場では、Web上に散らばるさまざまな情報を収集し、分析することが求められます。例えば、競合他社の製品情報や市場動向、最新のニュースなど、重要なデータはWeb上に多く存在します。しかし、これらの情報を手作業で収集・整理するのは時間と労力がかかります。そこで、Power BIのWebスクレイピング機能を活用することで、効率的にデータを取得し、リアルタイムで分析・可視化することが可能になります。

読み手(誰に向けた記事か?)

この記事は、下記のような読者を想定しています。
・Webスクレイピングを始めたいと考えている初学者
日常業務でWeb上の情報を活用したいが、手動でのデータ収集に限界を感じている方にとって、有益な内容となっています。

ブログの目標設定(具体的な目標)

Power BIを使用して特定のWebサイトからデータを取得する手順を理解し、効率的にデータの収集・分析を行えるようになることを目指します。

方法(アプローチ・使用技術)

Power BIの「Webからのデータ取得」機能を使用して、ウェブ上の表形式のデータを取得します。この方法は、プログラミングの知識がなくても簡単に実行できるため、多くの方にとって取り組みやすいアプローチです。
今回はWebスクレイピングの練習用ページを使ってデータを取得します。

1.「ホーム」タブから「データを取得」ボタンを押下。「Web」を選択する。

2.URLを入力して、「OK」ボタンを押下する。

URL・・・https://28samon.com/sample_webscraping/

3.Power BI Desktopが複数の提案をする。
下記設定が登録されている、「テーブル1」を選択して、「データの変換」ボタンを押下する。
Column1(タイトル)
Column2(日付 タグ)
Column3(説明)
Column4(カテゴリ)
Column5(タグ)

4.Column2を選択した後、「ホーム」タブの「値の置換」ボタンを押下する。

5.以下の設定を行い、「OK」ボタンを押下する。
検索する値:#(tab)
置換後:ブランク
詳細設定オプション:特殊文字を使用した置換にチェックを入れる

6.Column2を選択した後、「ホーム」タブの「値の置換」ボタンを押下する。

7.以下の設定を行い、「OK」ボタンを押下する。
検索する値:半角スペース
置換後:ブランク

8.Column2を選択した後、「ホーム」タブの「列の分割」ボタンを押下。「区切り記号による分割」を選択する。

9.以下の設定を行い、「OK」ボタンを押下する。
区切り記号:カスタム / #(lf)
詳細設定オプション:特殊文字を使用した置換にチェックを入れる

10.Column2.2を選択して、「削除」する。

11.列名をダブルクリックして、以下のように変更する
Column1→タイトル
Column2.1→更新日
Column3→説明
Column4→カテゴリ
Column5→タグ

12.「ホーム」タブより、「閉じて適用」ボタンを押下する。

13.ビジュアルより「テーブル」を選択する。

14.テーブル1からタグ、カテゴリ、タイトル、説明、更新日を選択する。

以上でWebスクレイピングした情報から一覧表を作成しました。

まとめ(結論と今後の展望)

Power BIを活用したWebスクレイピングの手順と成果について解説した。本手法により、手動でのデータ収集と比べて効率が大幅に向上した。Webスクレイピングが可能なサイトでは、短時間で大量の情報を取得でき、迅速なデータ収集を実現することができます。業務で定期的に確認すべきサイトがある場合、Power BIのWeb スクレイピングで取得してみてください。

-Scrapingを使ってみる
-