2012年4月3日火曜日

Ruby の HTML & XMLパーサ一覧

Rubyで利用できる HTML and XMLパーサ、Webスクレイピング ツールを、一覧にまとめます

・Hpricot (HTML Parser)
他のパーサのベースにもなっている、高速な HTML Parser
http://hpricot.com/
http://rubygems.org/gems/hpricot


・Nokogiri 鋸 (HTML and XML Parser)
Hpricotよりも早くて優れた HTML and XML Parser であることを謳ってます
http://nokogiri.org/
http://rubygems.org/gems/nokogiri


・Mechanize (Web Scraping)
Nokogiriをベースとしている、Webスクレイピング ライブラリ
http://mechanize.rubyforge.org/
http://rubygems.org/gems/mechanize


・REXML (XML Parser)
Rubyの標準 XMLパーサ、XPathをサポートしている
http://www.germane-software.com/software/rexml/


・LibXML Ruby (XML Parser)
Rubyから GNOME Libxml2 XML toolkitを利用する為のバインディング(binding)ツール
http://rubygems.org/gems/libxml-ruby
http://libxml.rubyforge.org/rdoc/
http://xmlsoft.org/


・scrAPI (HTML Scraping)
Web スクレイピング ツール
2010年に最新版が出ていますが、開発頻度はあまり多くない
http://rubygems.org/gems/scrapi


・Feedalizer (RSS feed)
Hpricotをベースにしたライブラリで、WebページをRSSフィードに変換します
2009年に最新版が出ています
http://vemod.net/feedalizer
http://rubygems.org/gems/feedalizer


・scRUBYt! (Web-scraping DSL)
※DSLとは、Domain Specific Languages、特定の領域(ドメイン)に存在する問題の解決に特化してデザインされたコンピュータ言語
HPricot と、WWW::Mechanize(Mechanizeの旧版)をベースにした、Webスクレイピング ツール
2008年から開発が進んでいないようです。
http://rubygems.org/gems/scrubyt
http://scrubyt.rubyforge.org/files/README.html