Untagger 是一个基于 Swift 编写的 HTML 去标记和全文提取库,深受 Boilerpipe 点缀。和 Boilerpipe 一样,Untagger 提供了检测和移除围绕网页主要文本内容周围的过剩“杂乱”内容(样板、模板)的算法。
该库使用的算法基于 Christian Kohlschütter 等人发表的论文《使用浅层文本特征检测样板》的概念,该论文由 WSDM 2010 - 美国纽约市举办的第三十九届 ACM 国际web搜索和数据挖掘会议提出。
安装
使用 CocoaPods
platform :ios, '8.0'
use_frameworks!
pod 'Untagger'
或者将 Untagger 项目拖放到您的 xcodeproj 中,将 Untagger 作为目标依赖项。
使用方法
导入 Untagger
import Untagger
然后使用它
UntaggerManager.sharedInstance.getText(url: url) { (title, body, source, error) in
if error == nil {
print("Article title: \(title!)")
print("Article body: \(body!)")
}
if let error = error {
print("Error: \(error.message)")
}
}
作者
wcgray, [email protected]
许可证
MIT