首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
doubledogs
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
16
文章 16
沸点 0
赞
16
返回
|
搜索文章
doubledogs
2年前
关注
word2vec对语料的读取
Word2Vec 是一种著名的 词嵌入(Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量(Distributed Represe...
0
评论
分享
doubledogs
2年前
关注
word2vec
词袋模型缺点 高维稀疏矩阵 无法表达不同词之间的语义相似性 语言模型 用一个词的周边的其他词来表示该词 语言模型:判断一句话出现的概率=>简化成词出现的概率 首次提出将一个...
0
评论
分享
doubledogs
2年前
关注
tf-idf实战
语料 corpus = [ '我在北京天安门', '选择AI,就是选择未来', '要么996要么icu', '我爱加班,加班使我快乐' ] 分词 词袋模型 tfidf...
0
评论
分享
doubledogs
2年前
关注
tf-idf 文本特征表示
概念 余弦相似度 ● 我们以二维向量为例,计算向量(x1,y1)与向量(x2,y2)的余弦相似度。 我们可以得到公式: ● 当我们把这个概念推广到多维 余弦值的范围在[-1...
0
评论
分享
doubledogs
2年前
关注
词袋模型
一 概念 ● 词袋模型是一种从文本中提取特征的方法。该方法非常简单和灵活,可以用于从文档中 提取各种功能的各种方法。词袋(Bag-of-words)是描述文档中单词出现的文...
0
评论
分享
doubledogs
2年前
关注
jieba去除停用词&词性标注
去除停用词 停用词过滤,是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声(例如:的、是、啊等) 词性标注 POS,Part-of-speech tagging的缩...
0
评论
分享
doubledogs
2年前
关注
jieba添加自定义词典
添加自定义词典 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率 用法: jie...
0
评论
分享
doubledogs
2年前
关注
jieba分词实战
jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型...
0
评论
分享
doubledogs
2年前
关注
jieba实现中文分词
结巴分词 “结巴”中文分词:做最好的 Python 中文分词组件 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词...
0
评论
分享
doubledogs
2年前
关注
中文分词
一 概念 ● “词”这个概念一直是汉语言学界纠缠不清的问题,“词是什么”(词的抽象定义)和 “什么是词”(词的具体界定),这两个基本问题迄今为止也未能有一个明确的表达。 ●...
0
评论
分享
doubledogs
2年前
关注
NLP简述
一 概念 NLP 即 Natural Language Processing,指使用计算机处理和分析我们的语言。现也指能实现人与计算机之间用自然语言进行有效通信的各种理论和...
0
评论
分享
doubledogs
2年前
关注
Logstash
一、概念 logstash是一个数据抽取工具,将数据从数据源经过一系列处理后推送到ES中,数据源包括日志文件、数据库中的数据等,输入到ES中方便检索。 下载地址:https...
0
评论
分享
doubledogs
2年前
关注
ES之数据类型
一、核心数据类型 string :text and keyword byte,short,integer,long,float,double boolean date 二、...
0
评论
分享
doubledogs
2年前
关注
ES之Mapping映射
一、概念 自动或手动为index中的_doc建立的一种数据结构和相关配置,简称为mapping映射。 对比MySQL数据库建表,mysql在建表时指定字段名称及类型,而ES...
0
评论
分享
doubledogs
2年前
关注
ES之文档存储
前言 一个索引数据量太大,分片存储在多个es节点上 一个文档只会存储在一个主分片上 一、数据路由 如上所述,一个文档最终落在哪一个主分片上,就是数据路由要解决的问题。 1 ...
0
评论
分享
doubledogs
2年前
关注
ES内部机制
一、ES分布式基础 1 透明性 以下操作不需要用户关心,ES会自动实现: 分布式数据存储 数据存放在分片的位置 副本数据的写入 新加入的ES节点所属集群 负载均衡 新增副本...
0
评论
分享
doubledogs
2年前
关注
ES基础入门
一、核心概念 1 Cluster:集群 包含一个或多个启动着es实例的机器群。通常一台机器起一个es实例。同一网络下,集群名一样的多个es实例自动组成集群,自动均衡分片等。...
0
评论
分享
doubledogs
2年前
关注
电信客户价值分析&K-means算法
开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第2天,点击查看活动详情 1 业务问题分析 客户价值分析实际上是一个对客户进行分群的问题。为了指定更有效...
0
评论
分享
doubledogs
2年前
关注
动态SQL
开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第1天,点击查看活动详情 延迟加载 分步查询的优点:可以实现延迟加载,但是必须在核心配置文件中设置全局配...
0
评论
分享
doubledogs
2年前
关注
基于回溯算法和贪心算法求解马踏棋盘问题
开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第1天,点击查看活动详情 1 问题描述 马踏棋盘问题也被称作是骑士周游问题。问题描述如下:国际象棋的棋盘...
0
评论
分享
下一页
个人成就
文章被点赞
17
文章被阅读
12,026
掘力值
662
关注了
2
关注者
4
收藏集
0
关注标签
6
加入于
2022-09-30