在 Ruby 中解析 HTML 文档的方法？-ruby-IT问答社区-解决你的IT疑问

在 Ruby 中解析 HTML 文档的方法？

Prafull Gupta 1月前

就像 PHP 中的 DOMDocument 类一样，RUBY（即核心 RUBY）中是否有任何类可以从 HTML 文档中解析并获取节点元素值。

帖子版权声明 1、本帖标题：在 Ruby 中解析 HTML 文档的方法？
本站网址：http://xjnalaquan.com/
2、本网站的资源部分来源于网络，如有侵权，请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点，并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
5、站长邮箱：yeweds@126.com 除非注明，本帖由Prafull Gupta在本站《ruby》版块原创发布，转载请注明出处！

最新回复 (0)

最新倒序只看楼主

bannedFromAskingQuestions 1月前 0 只看Ta

引用 2楼

您还可以尝试 Yorick Peterse 的 Oga

它是一个用 Ruby 编写的 XML/HTML 解析器，不需要 libxml 等系统库。您可以在这里找到它。https: https://github.com/YorickPeterse/oga
barlop 1月前 0 只看Ta

引用 3楼
Ruby Cheerio - 一个 jQuery 风格的 Ruby HTML 解析器。爬虫程序最简化的 Nokogiri 版本。这是最流行的 NodeJS 包 cheerio .

点击链接可以查看简单的爬虫示例。

gem 安装 ruby-cheerio
```
require 'ruby-cheerio'

jQuery = RubyCheerio.new("<html><body><h1 class='one'>h1_1</h1><h1>h1_2</h1></body></html>")

jQuery.find('h1').each do |head_one|
    p head_one.text
end

# getting attribute values like jQuery.
p jQuery.find('h1.one')[0].prop('h1','class')

# function chaining similar to jQuery.
p jQuery.find('body').find('h1').first.text
```
Sunwer Prower 1月前 0 只看Ta

引用 4楼

您应该看看 hpricot 。它非常好。它不是“核心”红宝石，但它是一种常用的宝石。
king_anton 1月前 0 只看Ta

引用 5楼

目前还没有内置的 HTML 解析器，但有一些非常好的解析器可用，特别是 Nokogiri .

元答案：对于这些常见需求，我建议查看 Ruby Toolbox HTML 解析器的首选推荐