Golang 中国

欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~

在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。
文本数据需要特殊处理,然后才能开始将其用于预测建模。我们需要解析文本,以删除被称为标记化的单词。然后,这些词还需要被编码为整型或浮点型,以用作机器学习算法的输入,这一过程称为特征提取(或矢量化)。
scikit-learn 库提供易于使用的工具来对文本数据进行标记和特征提取。

在小编本次分享的教程中,您可以学到如何使用 scikit-learn 为 Python 中的预测建模准备文本数据。

完成本教程后,您可以学到:

  • 如何使用 CountVectorizer 将文本转换为文字计数向量。
  • 如何使用 TfidfVectorizer 将文本转换为词频向量。
  • 如何使用 HashingVectorizer 将文本转换为唯一的整数。
    接下来就跟着小编一起来学习吧~

    点击阅读全文

    如何使用 scikit-learn 为机器学习准备文本数据

0 回复
需要 登录 后方可回复, 如果你还没有账号你可以 注册 一个帐号。