5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

PerlでHTML文からテキスト文を抽出する法

1 :デフォルトの名無しさん:02/05/22 22:26
文字コードの関係もあって失敗ばかりして困ってます。

HTML、XML文

タグ除去

プレーンテキスト

みたいなプログラムありませんか? どうかおながいします。

2 :デフォルトの名無しさん:02/05/22 22:27
単発質問に見えるが。

3 :デフォルトの名無しさん:02/05/22 22:27
間違いなく単発質問だ。

4 :デフォルトの名無しさん:02/05/22 22:29
回線切って首<以下略/>

5 :デフォルトの名無しさん:02/05/22 22:31
</commnet>

6 :デフォルトの名無しさん:02/05/22 22:32
すみません、まだ駆け出しの初心者なんで、、、

前に作った拙いプログラム張りますからちょっと待ってください。


7 :デフォルトの名無しさん:02/05/22 22:33
初心者なら何でもして良いと?

8 :デフォルトの名無しさん:02/05/22 22:34
s/<[^>]*>//g;

9 :1:02/05/22 22:34
これだとタグが完全に取れないのですが・・・

while ($_ = <STDIN>) {
$_ =~ s/<[^>]*>//g;
print $_;
}

10 :デフォルトの名無しさん:02/05/22 22:34
s/<[^>]*>/g

11 :デフォルトの名無しさん:02/05/22 22:35
warata

12 :デフォルトの名無しさん:02/05/22 22:36
なあ、ブラウザで、すべて選択してコピーすればタグ取れるぜ。
やってみろよ。


13 :デフォルトの名無しさん:02/05/22 22:37

 波
  を
   受
    信
     し
      ま
       す
        た

14 :デフォルトの名無しさん:02/05/22 22:41
うんこ

15 :デフォルトの名無しさん:02/05/22 22:55
int c;
while((c=getchar()) != EOF)
if(c == '<') while((c=getchar()) != '>');
else putchar(c);


16 :デフォルトの名無しさん:02/05/22 23:50
 ≪
 ≫
 ≪
 ≫
(゜ρ゜)
強い電波が出ています

17 :デフォルトの名無しさん:02/05/23 02:39
Perl に関する質問は以下のスレにどうぞ。

Perlは結構使えるっぽいけどどうよ?
http://pc.2ch.net/test/read.cgi/tech/991994996/
Perlについての質問箱
http://pc.2ch.net/test/read.cgi/tech/1017736187/

18 :デフォルトの名無しさん:02/07/02 23:28
天地爆裂
電波炸裂

19 :デフォルトの名無しさん:02/07/02 23:29
なぜ上げる?

20 :デフォルトの名無しさん:02/07/02 23:35
>>19
ごめんなさい。

21 :デフォルトの名無しさん:02/07/02 23:38
>>19
ここ数日板の攪拌をしてる人がいるみたい。
すぐ落ちるし気にしなくていいんでない。

22 :デフォルトの名無しさん:02/07/03 02:01
>>9 は複数行に跨ったタグを除去できない、ってだけの話だね。

つうか、きちんと動作するプログラム作りたいんだったら、
正規表現をLexerプログラムに翻訳しなおして、
微妙な境界条件や、エラー・リカバリをきちんと書くのが正道

23 :デフォルトの名無しさん:02/07/03 02:04
つーか、HTML::Parser 使おう。

24 :デフォルトの名無しさん:02/07/03 02:09
お前なんであげんの?

25 :デフォルトの名無しさん:02/07/03 07:09
>>23 中身はExpadかな

4 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.02 2018/11/22 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)