HTML::TreeBuilderによるパース(リンクの取得)

ここでは、取得したHTTPメッセージのbody部分に含まれるHTMLを解析してAタグ内に含まれるリンクURLを取り出す方法を説明したいと思います。

HTTPクライアントサンプル

以下にHTTP::LiteとHTTP::TreeBuilderを利用したクライアントを示します。

まず、Aタグを順次取得しています。 次に、取得したAタグに含まれるhref attributeをprintしています。


#!/usr/bin/perl

use HTTP::Lite;
use HTML::TreeBuilder;

$http = new HTTP::Lite;

# URL部分を変更して下さい
$req = $http->request("http://www.hogehogeURL.com/") || die $!;

$body = $http->body();

$tree = HTML::TreeBuilder->new;
$tree->parse($body);
$tree->eof();

foreach $a ($tree->find("a")) {
  print $a->attr('href');
  print "\n";
}

exit;

プロフェッショナルIPv6解説動画シリーズ再生リスト

動画で学ぶ「プロフェッショナルIPv6」を作っています。 もしよろしければご覧ください。お楽しみいただければ幸いです!