算法 - dst1213的收藏集 - 掘金

算法

更多收藏集

27篇文章 · 0订阅

电商搜索引擎（1）——算法选型

从大规模非结构化数据的集合中找出满足用户信息、需求的资料的过程。这里的“非结构化”其实是针对经典的数据库而言的数据库里的记录都有严格的字段定义（Scheme），是“结构化”数据的典型代表例如每道菜都有名字，想要吃鱼时，查询“水煮鱼”就非常高效。相反，“非结构化”没有这种严格…

Kervin_Chan
6年前
1.4k
5
评论

复旦大学提出中文分词新方法，Transformer连有歧义的分词也能学

机器之心报道，参与：思源、一鸣。从不同的角度看待中文句子，可能使中文分词任务（CWS）的标准完全不同。例如「总冠军」既可以看成独立的词，也能理解为「总」和「冠军」两个词。以前这种情况非常难解决，我们只能定一些字典或规则来加强这些词的划分。但这些应该是分词模型应该要学的呀，我…

机器之心
6年前
1.8k
5
评论

基于自然语言理解的中文地址匹配算法

中文地址基本上是非结构化的中文自然语言，地址匹配的本质是把含有位置信息的文字信息与空间信息关联起来，这在理论上是可行的。中文的自然语言理解方法包括中文分词、语义标注、句法分析和语义推理四个环节。在地址匹配的特殊场景，需要对这四个环节做特殊处理。完整的算法流程包括预处理、地址…

我是王大你是谁
6年前
7.6k
4
1

Transformer各层网络结构详解！面试必备！(附代码实现)

1. 什么是Transformer 《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型，叫 Transformer，抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热…

mantch
6年前
11k
18
评论

隐私与AI兼得，蚂蚁金服是如何做到的？

在人工智能时代，数据是AI领域的石油，如果没有数据很难将AI更好的落地。但是数据孤岛阻碍了数据的获取和利用，蚂蚁金服在三年前开始布局隐私保护机器学习，致力于在保护数据安全和隐私保护的前提下进行机器学习，我们称之为共享智能。我们之前分享了共享智能的理念和原理，今天，我们想聊聊共享…

蚂蚁数字科技
6年前
1.0k
1
评论

自动驾驶中高精地图的大规模生产：视觉惯导技术在高德的应用

导读：导航、驾驶辅助、自动驾驶等技术的不断发展对地图的精细程度提出了更高的要求。常规的道路级地图对于智能交通系统存在很多不足，针对自动驾驶应用的需求，我们提出了利用视觉惯导技术制作高精地图的方法。本文将首先介绍视觉和惯导的主流设备，视觉惯导融合的框架和关键技术，高德在基于视觉…

高德技术
6年前
1.8k
3
2

7 papers｜EMNLP 2019最佳论文；Facebook语言模型XLM-R取得SOTA结果

机器之心整理，参与：杜伟、一鸣。摘要：预训练词向量，如 ELMo 和 BERT 包括了丰富的句法和语义信息，使这些模型能够在各种任务上达到 SOTA 表现。在本文中，研究者则提出了一个非常快速的变分信息瓶颈方法，能够用非线性的方式压缩这些嵌入，仅保留能够帮助句法解析器的信息。…

机器之心
6年前
1.1k
4
2

PyTorch版《动手学深度学习》开源了，最美DL书遇上最赞DL框架

机器之心报道，项目作者：ShusenTang，参与：思。李沐等人的开源中文书《动手学深度学习》现在有 PyTorch 版实现了。不论是原书中的示例代码，还是实战项目，原来的 MXNet 都可以无缝转化到 PyTorch 代码。项目作者在保持原书内容基本不变的情况下，将 MXN…

机器之心
6年前
4.6k
23
1

PyTorch版《动手学深度学习》开源了，最美DL书遇上最赞DL框架

布隆过滤器(bloom filter)的原理及在推荐去重中的应用

在业务中,我需要给每个用户保存1w条浏览记录,之后每一次的返回值都要和历史记录做一个去重,即保证用户不会重复看到同一篇文章. Redis?哪里有那么大内存给你用. Hbase?Hbase我不太了解具体原理,据说每次全量查询有点慢啊(后来听大佬说这点数据无压力的). Mysql?…

呼延十
6年前
7.5k
25
10

李宏毅机器学习完整笔记发布，AI界「最热视频博主」中文课程笔记全开源

a. 对梯度下降概念的解析 b. 为什么需要做特征缩放 c. 隐形马尔科夫链的应用 a. 回归分析 b. 深度学习 1. 李宏毅机器学习简介李宏毅老师现任台湾大学电气工程助理教授，研究重点是机器学习，特别是深度学习领域。他有一系列公开的机器学习课程视频，在机器学习领域是很多人…

机器之心
6年前
3.4k
24
评论