一、pkuseg中文分词工具的使用
1、安装pkuseg模块
1 | pip3 install pkuseg |
2、使用默认配置进行分词
1 | import pkuseg |
['我', '爱', '北京', '天安门']
3、细领域分词
1 | import pkuseg |
Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/medicine.zip" to C:\Users\lemontree/.pkuseg\medicine.zip
100.0%
['我', '爱', '北京', '天安门']
4、长句分词
1 | seg = pkuseg.pkuseg() # 以默认配置加载模型 |
['地球', '自', '转刹车', '用', '了', '四十二年', ',', '比', '联合政府', '的', '计划', '长', '了', '三年', '。', '妈妈', '给', '我', '讲', '过', '我们', '全家', '看', '最后', '一个', '日落', '的', '情景', ',', '太阳', '落', '得', '很', '慢', ',', '仿佛', '在', '地平线', '上', '停住', '了', ',', '用', '了', '三', '天', '三', '夜', '才', '落', '下去', ',', '当然', ',', '以后', '没有', '“', '天', '”', '也', '没有', '“', '夜', '”', '了', ',', '东半球', '在', '相当', '长', '的', '一', '段', '时间', '里', '(', '有', '十几', '年', '吧', ')', '将', '处于', '永远', '的', '黄昏', '中', ',', '因为', '太阳', '在', '地平线', '下', '并', '没', '落深', ',', '还', '在', '半边天', '上映', '出', '它', '的', '光芒', '。', '就', '在', '那', '次', '漫长', '的', '日落', '中', ',', '我', '出生', '了']
5、文本文件分词
1 | #pkuseg.test('流浪地球.txt', 'output.txt', nthread=20) |
total_time: 17.295
6、导入数据,清洗数据
1 | import pkuseg |
1 | 刹车 时代 我 没 见 过 黑夜 我 没 见 过 星星 我 没 见 过 春天 秋天 和 冬天 我 出生 在 刹车 时代 结束 的 时候 那时 地球 刚刚 停止 转动 地球 自 转刹车 用 了 四十二年 比 联合政府 的 计划 长 了 三年 妈妈 给 我 讲 过 我们 全家 看 最后 一个 日落 的 情景 太阳 落 得 很 慢 仿佛 在 地平线 上 停住 了 用 了 三 天 三 夜 才 落 下去 当然 以后 没有 天 也 没有 夜 了 东半球 在 相当 长 的 一 段 时间 里 有 十几年 吧 将 处于 永远 的 黄昏 中 因为 太阳 在 地平线 下 并 没 落深 还 在 半边天 上映 出 它 的 光芒 就 在 那 次 漫长 的 日落 中 我 出生 了 黄昏 并 不 意味着 昏暗 地球 发动机 把 整个 北半球 照 得 通明 地球 发动机 安装 在 亚洲 和 美洲 大陆 上 因为 只有 这 两 个 大陆 完整 坚实 的 版块 结构 才能 承受 发动机 对 地球 巨大 的 推力 地球 发动机 共有 一万二千 台 分布 在 亚洲 和 美洲 大陆 的 各个 平原 上 从 我 住 的 地方 可以 看到 几百 台 发动机 喷 出 的 等离子体 光柱 你 想象 一个 巨大 的 宫殿 有 雅典 卫城 上 的 神殿 那么 大殿 中 有 无数 根 顶天立地 的 巨柱 每 根 柱子 像 一 根 巨大 的 日光 灯管 那样 发出 蓝 白色 的 强光 |
二、wordcloud模块的使用
1 | import wordcloud |
<wordcloud.wordcloud.WordCloud at 0x20233707fd0>
