5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

ロボットスパーダー!制作

1 :ひでまろ:03/11/27 23:20
グーグルに代表されるロボットスパイダープログラムを制作できますか?
又制作できる企業はあるのでしょうか?

2 :仕様書無しさん:03/11/27 23:23
制作は非常に簡単です。
スクリプト言語の無敵さを思い知ってください。

ttp://member.nifty.ne.jp/hippo2000/perltips/LWP.html

3 :2:03/11/27 23:27
>>1
即座に目的が充足されたように見受けられます。
削除依頼してきてください。

4 :仕様書無しさん:03/11/27 23:54
検索プログラムでしょ?

5 :仕様書無しさん:03/11/28 00:01
検索したい言葉を入力して検索したら目的の言葉を拾ってくれるプログラムです。
>>02さんの教えてくださったサイト・・・、スパイダープログラムの事書いてないような気が・・・。
違ったらすみません。

6 :仕様書無しさん:03/11/28 00:03
perlのバカヤロー!!

7 :仕様書無しさん:03/11/28 00:04
誰かスレタイに突っ込んでやれよ。

8 :仕様書無しさん:03/11/28 00:08
とある企業に問い合わせたらCGIでの起動は不可能といわれました。
ここにいらっしゃる方ならなにかご存知かと思いまして

9 :仕様書無しさん:03/11/28 02:32
いいよ

10 :仕様書無しさん:03/11/28 08:19
スパイダー作るのはLWPとHTMLパーサがあれば容易。
HTMLから抽出したリンクを辿ることを繰り返しながらやりたい処理をやらせるだけ。

11 :仕様書無しさん:03/11/28 11:22
で・・・どうやってつくる

12 :仕様書無しさん:03/11/28 11:40
1〜10を読んで、作り方がわからなかったら作るの無理。

13 :仕様書無しさん:03/11/28 11:43
オライリーのGoogle本には載ってないのか?

14 :仕様書無しさん:03/11/28 11:48
本格的に哀れで不憫な>>1のためにサンプル作ってみようかな。
七行で。

15 :14:03/11/28 19:04
#引数のサイトを出発点としてタイトルを収集しまくるプログラム
use strict;use LWP::UserAgent;use HTML::LinkExtor;use Data::Dumper;use Jcode;
srand;my $ua = LWP::UserAgent->new('spider');my $site_url = $ARGV[0];
my @linklist;my %url_hash;while (1) {my $req = HTTP::Request->new('GET' => $site_url);
$req->header('Accept' => 'text/html');my $res = $ua->request($req);
if ($res->is_success) {$_ = jcode($res->content)->h2z->euc;my ($html_title)
= m|<title[^>]*>\s*(.+)?\s*</title>|s;print "[URL]:$site_url\n[Title]: $html_title\n";
$site_url =~ s/\?.*$//;$url_hash{$site_url} = $html_title;
HTML::LinkExtor->new(\&callback)->parse($_);my $next_url;foreach (1..5) {
$next_url = $linklist[int(rand() * scalar(@linklist))];if ($url_hash{$next_url})
{ undef $next_url; next; }$site_url = $next_url;last}@linklist = ();
last unless ($next_url)}}print "[Result]:URL\tTitle\n";while(my ($url, $title)
= each(%url_hash)){print "$url\t$title\n"}sub callback {my($tag, %links) = @_;
if ( $tag eq 'a' and $links{'href'} !~ m!^$site_url! and $links{'href'} =~
m!^http://.+?(/|\.html?)!){push @linklist, $links{'href'}}}


16 :仕様書無しさん:03/11/28 19:06
あ、Data::Dumper取り忘れた
鬱だ篠生

17 :仕様書無しさん:03/11/28 23:22
まともなのつく例!起動するのかこのプログラムは???

18 :仕様書無しさん:03/11/30 12:32
>>17
君は失敬な奴だな。ちゃぁんと起動するに決まってるだろう。

1.Perl及び、LWP、HTML::LinkExtor、Jcodeが使える環境を整備する。
    (ああ、そうかここが>>17にとっては絶望的なのか)
2.上のプログラムを"spider.pl"という名前で保存する。
    (別に何でもいいんだけど、君は確か蜘蛛が作りたかったんだろ?)
3.perl spider.pl [出発点にしたいURL] として実行。
    (タイトル収集しかしてくれないからな。あまり期待するなよ)

理解したか?                    ボーイ
ならばありがたく受け取って喜びに打ち震えてろ若造?

19 :仕様書無しさん:03/12/01 23:33
もっと高機能キボン

20 :仕様書無しさん:03/12/01 23:44
これだけ出てりゃ拡張は簡単だろ。

21 :仕様書無しさん:03/12/02 00:00
キボンキボンキボォォン!


22 :仕様書無しさん:03/12/02 21:33
ほらよ

use strict;use LWP::UserAgent;use HTML::LinkExtor;use Data::Dumper;use Jcode;
srand;my $ua = LWP::UserAgent->new('spider');my $sex_url = $ARGV[・0・];
my @linklist;my %url_hash;while (1) {my $req = HTTP::Request->new('GET' => $site_url);
$req->header('A`)ccept' => 'text/html');my $res = $ua->request($req);
if ($res->is_success) {$_ = jcode($res->content)->h2z->euc;my ($html_title)
= m|<title[^>]*>\s*(.+)?\s*<、`∀´>/title>|s;print "[URL]:$site_url\n[Title]: $html_title\n";
$site_url =~ s/\?.*$//;$url_hash{$site_url} = $html_title;
HTML::LinkExtor->new(\&callback)->parse($_);my $next_url;foreach (1..5) {
$next_url = $linklist[int(rand() * scalar(@linklist))];if ($url_hash{$next_url})
{ undef $next_url; next; }$site_url = $next_url;last}@linklist = ();
last unless ($next_url)}}print "[゚д゚]Result]:URL\tTitle\n";while(my ($url, $title)
= each( ´,_ゝ`){print "$url\t$title\n"}sub callback {´∀`}my($tag, %links) = @_;
if ( $tag eq 'a' and $links{'href'} !~ m!^$site_url! and $links{'href'} =~
m!^http://.+?(/|\.html?)!){push @linklist, $links{'href'}}}

23 :仕様書無しさん:03/12/03 00:23
で・・これをどうしろと

6 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)