Web制作を行っている企業様からは、「検索サイトをつくりたいけどデータがない」また「大量のデータを扱うコンテンツをつくりたい」とご相談を受けます。このような多くの情報が手元にあることを前提としたサイトやコンテンツを作る場合、大量のマスターデータが必要となり、自分たちでデータを取得しようとすると時間がかかり費用もかかります。
情報の出典元の精査から取得したデータを整える名寄せなどの作業も大変でしょう。今回はButinukiDataクローリング、スクレイピング代行がWeb制作企業様の「検索サイト制作のためのマスターデータを取得したい」という事例をご紹介します。
クローリング、スクレイピングでマスターデータを取得
多くの場合、検索サイト作成のために必要な大量のデータはインターネット上で公開されているWebサイトから収集できますがそれをひとつひとつWebサイトを見に行って、データを取得することは大変です。そこでクローリング、スクレイピングを利用すると早く、大量のデータを一括で収集できます。Webサイト上に表示されるテキストだけでなく、画像、pdfファイル内の情報も収集することが可能で情報を取得後、さらにExcel、CSV、データベースへの保管など整ったかたちでデータを取得することができます。
検索サイトコンテンツのマスターデータ取得事例
例えば、病院検索サイトを制作する際には、全国の病院の住所や電話番号、診察時間などさまざまなデータが必要となります。今回はそれらのデータがすでにまとまっているポータルサイトからマスターデータを取得しました。スクレイピングを利用すると、特定のキーワードを検索フォームに入れた検索結果からさらに「詳細」ページにあるデータを一括取得することができます。
これがマスターデータとなり、検索サイトを制作する際に役立ちます。
アクセスをするポータルサイトが複数ある場合は、サイトにより項目の表記等が異なるので注意が必要です。例えばよくある例は「電話番号」「Tel」などです。
制作を行うイト上では最終的に閲覧者にわかりやすいかたちで情報を伝える必要があります。データ統合を考慮し整形しながらスクレイピングを行う必要があります。
ButinukiiDataクローリング、スクレイピング代行では、データ取得からデータ整形、Web構築までお手伝いすることが可能です。大量のデータを使い高速で検索を行えるWebサイトをつくりたい、といった場合には是非ご相談ください。