Untagger 0.0.4

Untagger 0.0.4

Cam Gray 维护。



Untagger 0.0.4

  • 作者:
  • wcgray

Untagger 是一个基于 Swift 编写的 HTML 去标记和全文提取库,深受 Boilerpipe 点缀。和 Boilerpipe 一样,Untagger 提供了检测和移除围绕网页主要文本内容周围的过剩“杂乱”内容(样板、模板)的算法。

该库使用的算法基于 Christian Kohlschütter 等人发表的论文《使用浅层文本特征检测样板》的概念,该论文由 WSDM 2010 - 美国纽约市举办的第三十九届 ACM 国际web搜索和数据挖掘会议提出。

安装

使用 CocoaPods

platform :ios, '8.0'
use_frameworks!
pod 'Untagger'

或者将 Untagger 项目拖放到您的 xcodeproj 中,将 Untagger 作为目标依赖项。

使用方法

导入 Untagger

import Untagger

然后使用它

UntaggerManager.sharedInstance.getText(url: url) { (title, body, source, error) in
            if error == nil {
                print("Article title: \(title!)")
                print("Article body: \(body!)")
            }

            if let error = error {
                print("Error: \(error.message)")
            }
        }

作者

wcgray, [email protected]

许可证

MIT