Nokogiriの覚書

使い方をいつも忘れるのでメモ
詳しい使い方は以下のURLが素晴らしい

基本

Nokogiriのノードオブジェクトを得る

require 'rubygems'
require 'nokogiri'
require 'open-uri'
doc = Nokogiri::HTML(open("http://www.google.com"))

検索

doc.Xpath('//html/body/center/div/div') # Xpathで上から順に探す
doc.Xpath('//*[@id="fll"]') # Xpathでid=fllのものを全タグから探す
doc.css('div.hello a') #CSSで探す

doc.css('div.hello').inner_html #要素の中身のHTMLを取得
doc.css('div.hello').inner_text #要素の中身のテキストだけを取得

#imgタグからsrc属性の値を取り出す
doc.css('img').each do |image|
  image.attribute("src").value
end