python

python

python

python

暂无订阅共14篇文章创建于2022-01-24

读取txt文件并生成词云图

读取txt文件并生成词云图 (一)下载第三方模块 1.wordcloud:它把我们带权重的关键词渲染成词云。 2.jieba：是一个分词模块，因为我是从一个txt文本里提取关键词，所以需要 jieba

4年前
642
2
评论

WordCloud词云制作以及美化

import wordcloud import pandas as pd import jieba import matplotlib.pyplot as plt from nltk.corpus i

4年前
462
1
评论

word2vec中的CBOW模型

word2vec中的CBOW模型简介 word2vec是Google与2013年开源推出的一个用于获取word vecter的工具包，利用神经网络为单词寻找一个连续向量看空间中的表示。 word2v

4年前
588
2
评论

python爬取《三国演义》小说&统计词频&生成词云图

python爬取《三国演义》小说&统计词频&生成词云图注意点：爬取小说正文时用的正则表达式涉及到多行匹配。需要开启多行模式 (?s) book_content_re = re.compile(r'

4年前
604
2
评论

Python中文分词及词频统计

Python中文分词及词频统计中文分词中文分词(Chinese Word Segmentation)，将中文语句切割成单独的词组。英文使用空格来分开每个单词的，而中文单独一个汉字跟词有时候完全不是

4年前
1.1k
3
评论

python爬取网站的小说2

使用正则表达式 re.compile 函数 compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。语法格式为

4年前
1.4k
5
评论

python爬取网站的小说

import requests # re是正则表达式 import re # 要爬取的小说url url = 'http://www.shujy.com/5200/244309/' respon

4年前
226
2
评论

Embedding和Word2Vec用法

Embedding Embedding 层的输入是一个二维整数张量，形状为（samples，sequence_length），即（样本数，序列长度）较短的序列应该用 0 填充，较长的序列应该被截断

4年前
1.2k
2
评论

PyTorch常用代码段

1，基本配置导入包和版本查询　　显卡设置如果只需要一张显卡　　如果需要指定多张显卡，比如0，1号显卡。也可以在命令行运行代码时设置显卡：清除显存：　　也可以使用在命令行重置

4年前
445
2
评论

pytorch使用多个GPU同时训练模型

pytorch使用同一设备上多个GPU同时训练模型，只需在原有代码中稍作修改即可。改动1：　　改动2：　　使用多GPU训练，速度明显得到提升。官方示例代码

4年前
1.1k
2
评论

Pytorch 中nn.Conv2d的参数用法 channel含义详解

nn.Conv2d nn.Conv2d是二维卷积方法，相对应的还有一维卷积方法nn.Conv1d,常用于文本数据的处理，而nn.Conv2d一般用于二维图像。 channel 在深度学习的算法学习

4年前
1.8k
3
评论

TF-IDF具体算法和原理

TF-IDF算法相关概念信息检索（IR）中最常用的一种文本关键信息表示法基本信息：如果某个词在一篇文档中出现的频率高，并且在语料库中其它词库中其他文档中很少出现，则认为这个词具有很好的类别区分

4年前
825
2
评论

TextRank算法 TD-IDF是基于词频的算法，而TextRank是基于图形的算法。 TextRank是受到PageRank算法的启发。 PageRank算法 PageRank主要用于对在线

4年前
612
2
评论

文本关键字提取

文本关键字提取用途：用核心信息代表原始文档在文本聚类、分类、自动摘要等领域又很重要的作用需求：针对一篇文章，在不加入人工干预的情况下提取出关键词（自动提取）当然，首先需要进行分词！关键词匹

4年前
468
2
评论