个不同的类别。当然,您必须定义表征每个类别的词语。例如,与体育相关的术语可以是板球、羽毛球、足球、贝利、滕杜尔卡尔等等。同样,您可以使用总理、内阁、议会、法案、选举等类似词语来对新闻进行分类。
在对新文本进行分类时,系统会分别统计与政治相关的词语和与新闻相关的词语数量。如果与体育相关的词语数量较多,系统会将该新闻归类为体育新闻。政治新闻的情况也类似。
例如,如果新闻标题是“萨钦·滕杜尔卡是印度有史以来最优秀的板球运动员”,系统可以立即将其识别为体育新闻。同样,新闻标题“议会今天以绝对多数通过了《公民身份修正法案》”也属于政治新闻。
这个系统是有效的。但是,可能会有这样的新闻:“萨钦·滕杜尔卡尔今天在议会首次发言”或“总理今天去看了一场板球比赛”。这样的新闻标题会给自动文本分类系统带来问题。它不知道如何对这样的新闻进行分类。因此,在这种情况下,手动文本分类就派上用场了。
其次,为复杂的系统制定规则可能是一项耗时的工作。它需要大量的分析和测试。这样的系统维护起来可能是一个挑战,因为新规则也会影响现有法规的结果。
文本分类机器学习
文本分类机器学习系统不依赖于人工制定的规则。另一方面,它根据过去的观察来学习对文本进行分类。它使用预先标记的示例作为训练数据。文本分类算法可以学习文本片段与特定文本或输入的预期输出之间的不同关联。
特征提取是使用机器学习训 电报数据库 练分类器的第一步。这是机器将每个文本转换为矢量形式的数字表示的方法。最常见的方法是“词袋”,其中矢量表示预定义词典中特定单词的频率。
因此,如果我们有一本包含以下单词的词典(cricket、this、is、match、on、superb、today、the、a、now),并且我们希望将文本“ 今天有一场板球比赛”矢量化,我们就有以下向量表示(1,0,0,1,1,0,1,0,1,0)。
类似地,文本分类机器学习算法需要输入包含特征集和标签对的数据,以生成分类模型。文本分类机器学习模型需要一些时间才能开始做出准确的预测。但是,如果有足够的训练样本,它就能做到这一点。
使用文本分类的机器总是比人类制定的规则更准确,尤其是在任务非常复杂的情况下。人们总是可以不断添加新的例子,使系统能够学习新任务。
文本分类算法
什么是文本分类算法?现在我们 日志分析,这个比较传统 将看到一些文本分类算法,如朴素贝叶斯算法、深度学习
1. 朴素贝叶斯家族
我们在进行文本分类时使用的最好 巴哈马商业指南 的统计算法之一是朴素贝叶斯。它的优点是当数据不多且计算资源稀缺时,可以得到准确的结果。
朴素贝叶斯算法基于贝叶斯定理,该定理有助于根据每个事件发生的可能性计算两个事件发生的条件概率。
2.支持向量机
支持向量机与朴素贝叶斯算法类似,因为它不需要太多训练数据就能开始产生准确的结果。与朴素贝叶斯文本分类算法相比,SVM 需要更多的计算资源。同时,与朴素贝叶斯相比,SVM 产生的结果要准确得多。