どうも、こんにちは。
備忘録です。
centOSを勉強している時もそうだったのですが、この備忘録記事は復習にめちゃ良いですよね。しかも、時間が経つと同じところで躓くので自分で見返すことも多い。
という訳で、今回はPythonのお話。
無知だったのですが、PythonのBeautifulSoupは独自のタグも抽出してくれるようです。
htmlのタグといえば、aタグやli といった決まったタグを指すものとばかり思っていました。
しかし、htmlには独自にタグを作成して使うこともできるようです。
今回メルカリのサイトをスクレイピングしてみようと思ってコードを見ていたのですが、見慣れないメルカリ独自のコードがあったので戸惑いました。
例えば、こんな感じです。
<mer-heading class="XXX" XXXXXXX mer-defined>
初めて見た時は、「なんじゃこりゃ」って感じでした。
しかし、タグはタグ。
BeautifulSoupでも他のタグと同様に抽出することができます。
find("mer-headingu").get()
こんな感じです。
getの後のカッコにはaltなど引っ張ってきたい要素を書けばOK。
BeautifulSoupは慣れると非常に便利ですね。
それでは!
コメント