Pythonでフォームに入力したURLからページタイトルを取得したいんやが
■ このスレッドは過去ログ倉庫に格納されています
調べたらBeautifulSoup 使えばできるんやがスクレイピングは怖い
なんかいい方法ないか スクレイピングは制約多いしなんか大げさな気がしている 任意のWebページのタイトルを取得するってスクレイピングそのものなんだからどんなやり方としてもそれはつまりスクレイピングだぞ BeautifulSoup使ってスクレイピングしかないやろ… スクレイピングの何が怖いんや
短時間に大量のアクセスしたりしなければ普通の閲覧となんら変わらんやろ いやそのリンクにアクセスしないとtitle要素を取得できないんだからスクレイピングするしかないだろ >>13
そうなん?
URLを入力したらページタイトルを取得してリストにしてくれる機能作りたいんやがこういう使い方で迷惑かかるやろか ページタイトルとかrequestsでhtmlダウンロードして読ませるだけやろ
スクレイピングの手前や Pythonあんまり触ったことないがSeleniumのスクレイピングは簡単だったぞ 利用規約見てスクレイピングのこと書いてないかよーく読んだらええ
一秒待てばええやろの精神や
あーあとrobots.txt見てみるの面白いよな 何回も高速に繰り返し取得するならアカンけど1個だけなら人がやってるのと変わら requestsかurllibでええやんけtitleタグとるだけやろ BeautifulSoup 使わない場合は正規表現必須なんかな html読み込まないといけないんだから結局スクレイピングなんやないん? seiki = re.compile('title.(.*)..title')
print(seiki.match(html)[1])
ほい、コレ使ってええぞ
ライセンスはGPL3な 学校の課題とかなんか?
車輪の再発明になりそうやけども BeautifulSoup 使うのがいちばん簡単な気がしてきた
逮捕されないスクレイピングの仕方教えてくれ! ■ このスレッドは過去ログ倉庫に格納されています