Pythonでフォームに入力したURLからページタイトルを取得したいんやが

■ このスレッドは過去ログ倉庫に格納されています
0001それでも動く名無し2023/02/18(土) 15:04:18.01ID:nIcVMiDr0
調べたらBeautifulSoup 使えばできるんやがスクレイピングは怖い

なんかいい方法ないか

0002それでも動く名無し2023/02/18(土) 15:05:25.66ID:nIcVMiDr0
スクレイピングは制約多いしなんか大げさな気がしている

0003それでも動く名無し2023/02/18(土) 15:05:52.51ID:8ycmeGKU0
chatGPTに頼めよ

0004それでも動く名無し2023/02/18(土) 15:06:20.17ID:nIcVMiDr0
>>3
BeautifulSoup 進められた

0005それでも動く名無し2023/02/18(土) 15:06:36.09ID:ztSIHPry0
aiに聞けよ

0006それでも動く名無し2023/02/18(土) 15:07:02.49ID:yezkyeSe0
全部aiに聞けばコードも出す

0007それでも動く名無し2023/02/18(土) 15:07:06.37ID:AlB3Hnkaa
タイトル教えてくれるサイトあるぞ

0008それでも動く名無し2023/02/18(土) 15:07:18.44ID:ehVCKEl20
urllibでできんか?

0009それでも動く名無し2023/02/18(土) 15:07:26.41ID:nIcVMiDr0
>>7
そういう感じの機能を自分で実装したい

0010それでも動く名無し2023/02/18(土) 15:08:28.03ID:8ycmeGKU0
>>4
それなしでってついか質問してみろよ

0011それでも動く名無し2023/02/18(土) 15:09:16.53ID:KjoWWvTpd
AIに逆らうなよアホ

0012それでも動く名無し2023/02/18(土) 15:10:52.83ID:yhX6cCi5H
ページにアクセスしてタイトル取ったらええやん

0013それでも動く名無し2023/02/18(土) 15:10:56.57ID:AqhsI1AI0
任意のWebページのタイトルを取得するってスクレイピングそのものなんだからどんなやり方としてもそれはつまりスクレイピングだぞ

0014それでも動く名無し2023/02/18(土) 15:11:39.34ID:CjdlJg3Ma
BeautifulSoup使ってスクレイピングしかないやろ…

0015それでも動く名無し2023/02/18(土) 15:12:29.37ID:2KsCIi6h0
スクレイピングの何が怖いんや
短時間に大量のアクセスしたりしなければ普通の閲覧となんら変わらんやろ

0016それでも動く名無し2023/02/18(土) 15:12:37.20ID:AnKv7LfPa
いやそのリンクにアクセスしないとtitle要素を取得できないんだからスクレイピングするしかないだろ

0017それでも動く名無し2023/02/18(土) 15:12:59.64ID:nIcVMiDr0
>>13
そうなん?
URLを入力したらページタイトルを取得してリストにしてくれる機能作りたいんやがこういう使い方で迷惑かかるやろか

0018それでも動く名無し2023/02/18(土) 15:13:04.17ID:TjUbL2Lj0
ページタイトルとかrequestsでhtmlダウンロードして読ませるだけやろ
スクレイピングの手前や

0019それでも動く名無し2023/02/18(土) 15:13:26.34ID:nIcVMiDr0
>>15
気にせなあかんこと多いやん

0020それでも動く名無し2023/02/18(土) 15:13:34.65ID:WMVwGSv8a
賢い奴はchatGPTに質問するプログラム組むよ

0021それでも動く名無し2023/02/18(土) 15:13:47.79ID:qfnN96Po0
Pythonあんまり触ったことないがSeleniumのスクレイピングは簡単だったぞ

0022それでも動く名無し2023/02/18(土) 15:14:57.08ID:CjdlJg3Ma
利用規約見てスクレイピングのこと書いてないかよーく読んだらええ
一秒待てばええやろの精神や

あーあとrobots.txt見てみるの面白いよな

0023それでも動く名無し2023/02/18(土) 15:15:14.83ID:nIcVMiDr0
request とurllibどっちがええんやろ

0024それでも動く名無し2023/02/18(土) 15:15:18.61ID:TjUbL2Lj0
何回も高速に繰り返し取得するならアカンけど1個だけなら人がやってるのと変わら

0025それでも動く名無し2023/02/18(土) 15:15:29.53ID:nIcVMiDr0
>>22
その辺がよくわからんから怖いんよ

0026それでも動く名無し2023/02/18(土) 15:15:30.84ID:O55YO6RH0
requestsかurllibでええやんけtitleタグとるだけやろ

0027それでも動く名無し2023/02/18(土) 15:15:54.95ID:nIcVMiDr0
chatGPT 様はurllibを勧めてきた

0028それでも動く名無し2023/02/18(土) 15:18:48.23ID:nIcVMiDr0
BeautifulSoup 使わない場合は正規表現必須なんかな

0029それでも動く名無し2023/02/18(土) 15:19:31.85ID:H9hiF5gja
BingAIに聞け

0030それでも動く名無し2023/02/18(土) 15:20:22.91ID:R2fyjYeO0
html読み込まないといけないんだから結局スクレイピングなんやないん?

0031それでも動く名無し2023/02/18(土) 15:21:44.32ID:oU2limzlM
seiki = re.compile('title.(.*)..title')
print(seiki.match(html)[1])

ほい、コレ使ってええぞ
ライセンスはGPL3な

0032それでも動く名無し2023/02/18(土) 15:23:15.45ID:BQvLheZ60
学校の課題とかなんか?
車輪の再発明になりそうやけども

0033それでも動く名無し2023/02/18(土) 15:24:01.61ID:nIcVMiDr0
>>32
いや個人で作ってるだけ

0034それでも動く名無し2023/02/18(土) 15:28:25.46ID:nIcVMiDr0
BeautifulSoup 使うのがいちばん簡単な気がしてきた
逮捕されないスクレイピングの仕方教えてくれ!

■ このスレッドは過去ログ倉庫に格納されています