首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
爱emo的叁叁
掘友等级
AI爱好者
年轻人不讲武德,已躺平
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
61
文章 48
沸点 13
赞
61
返回
|
搜索文章
最新
热门
重新编译ElasticSearch以应对图像搜索和文本语义匹配
ElasticSearch7开始增加了Dense Vector和Sparse Vector这两个数据类型,算是为图像搜索以及文本语义匹配提供支持的。 但发现文档(elasticsearch7.5版本)中他的维度真的很低,只能支持到1024维。虽然说这个维度应对一般的文本语义匹配…
人工智能、机器学习、深度学习介绍
在本章节,我们将要搞清楚,人工智能,机器学习,以及深度学习是什么,以及它们之前的区别和联系。 首先关于人工智能,可以看看百科上面的解释。 总体来说,人工智能其实就是让计算机实现人类拥有的智能。 人类能做的事情被计算机学家分成了几个大类,大类下面又有小类。 下面我们这里将要介绍几…
图像搜索:给你爬的美女图建一个搜索引擎
最近测了一下SPTAG这个近似最近邻搜索工具,打算拿一个东西先测测练练手,于是就想到了可以把之前的美女图建一个索引,看看能不能搜到想要的美女图。 首先是准备好美女图,我这里是很久以前爬的一些图,一共接近1万张。 如果没有的话,这里提供一下Google Drive下载链接:htt…
Docker下SPTAG的安装与测试
SPTAG是微软开发的一款近似最近邻搜索( approximate nearest neighbor search)的库,可以用它来做dense vector的索引。 最常见的就是图像搜索这样的应用,当然文本检索做语义匹配也可以用到。 因为SPTAG目前不支持mac版本,所以安…
使用Python对音频进行特征提取
因为喜欢玩儿音乐游戏,所以打算研究一下如何用深度学习的模型生成音游的谱面。这篇文章主要目的是介绍或者总结一些音频的知识和代码。 恩。如果没玩儿过的话,音乐游戏大概是下面这个样子。 下面进入正题。 我Google了一下,找到了这篇文章:Music Feature Extracti…
那些年,我爬过的北科(十)——搜索案例之ElasticSearch的使用
一般来说数据库都会自带模糊搜索的功能,但其实上真正使用的时候,遇到中文搜索这种问题时,搜索速度会非常慢,可能会需要O(n)或者O(logn)的复杂度。 在实际使用中,这是不允许的,因为用户就搜索一条语句。假设n非常大的话,等待时间可能会非常的久。所以肯定需要使用索引机制,加速搜…
那些年,我爬过的北科(九)——搜索案例之爬虫编写
从本章开始,我们将要开始进入最后的案例实践篇。 在爬取数据之后,我们一般会怎么用数据呢?一般来讲,我们可能会做一个搜索引擎,比如说我们爬了新闻,可能会做一个新闻的搜索;爬取了小说可能做一个小说的搜索。 本案例将要爬取北科贴吧的帖子数据,并在此基础上构建一个简单的搜索功能。 我们…
那些年,我爬过的北科(八)——反反爬虫之验证码识别
本章将要介绍一下如何识别简单的验证码。会涉及到一些图像的概念以及机器学习的知识。 在学习之前,我们先安装本章需要的三个库:图像库Pillow、机器学习库Scikit-Learn、科学计算库Numpy。通过pip命令就可以进行安装。 这里主要有三个部分:下载器、分割器、与识别器。…
那些年,我爬过的北科(七)——反反爬虫之使用代理ip
本章将要介绍一下如何使用代理ip解决反爬虫的禁ip的问题,并扩展了解一下代理ip池的构建与adsl服务器的使用。 下面,我们先来看一下如何获取自己的ip地址。我们直接在百度上搜索ip,或者通过http://www.ip138.com/这个网站就可以。比如说我现在的ip如下: i…
那些年,我爬过的北科(六)——反反爬虫之js渲染
从本章开始,我们将要进入反反爬虫篇的内容。 感觉如果是第一听到这个名字的读者肯定是懵逼的状态。现在我们先来介绍一下什么是爬虫、反爬虫、反反爬虫。 爬虫其实就是我们前面所学的代码,直接使用requests.get("http://xxx.com")就能拿到网站的源码。 但是很多时…
下一页
个人成就
优秀创作者
文章被点赞
601
文章被阅读
119,602
掘力值
2,962
关注了
18
关注者
2,996
收藏集
3
关注标签
22
加入于
2016-09-27