这是我参与11月更文挑战的第9天,活动详情查看:2021最后一次更文挑战
1. 使用Word2vec算法计算得到的词向量之间为什么能够表征词语之间的语义近似关系?
参考答案:
word2vec是一种高效实现word embedding的算法,word2vec模型其实就是一个简单化的神经网络,输入是One-Hot向量,Hidden Layer没有激活函数,也就是线性的单元。Output Layer维度跟Input Layer的维度一样,用的是Softmax回归。word2vec得出的词向量其实就是训练后的一个神经网络的隐层的权重矩阵,经过CBOW或Skip-Gram模型的训练后,此意相近的词语就会获得更为接近的权重,因此可以用向量的距离来衡量词的相似度。
2. 在样本量较少的情况下如何扩充样本数量?
参考答案:
-
同义词替换(SR: Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中(wordnet)随机抽取同义词,并进行替换。
-
随机插入(RI: Randomly Insert):不考虑stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复n次。
-
随机交换(RS: Randomly Swap):句子中,随机选择两个词,位置交换。该过程可以重复n次。
-
随机删除(RD: Randomly Delete):句子中的每个词,以概率p随机删除。
更多请看七月在线题库里的这题:www.julyedu.com/question/bi…
3. 介绍一下Python的装饰器。
参考答案:
装饰器本质上是一个 Python 函数或类,它可以让其他函数或类在不需要做任何代码修改的前提下增加额外功能,装饰器的返回值也是一个函数/类对象。
装饰器的作用是装饰函数,即在不改变原有函数的基础上,增加新的函数功能,让函数更加强大。
装饰器适用的两个场景:增强被装饰函数的行为;代码复用。
4. 什么是梯度消失和梯度爆炸?
参考答案:
根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时,得到的梯度值接近0或特别大,也就是梯度消失或爆炸。梯度消失或梯度爆炸在本质原理上其实是一样的。
5. leetcode46. 全排列
预备知识
回溯法:一种通过探索所有可能的候选解来找出所有的解的算法。如果候选解被确认不是一个解(或者至少不是最后一个解),回溯算法会通过在上一步进行一些变化抛弃该解,即回溯并且再次尝试。
方法一:回溯思路和算法这个问题可以看作有 n 个排列成一行的空格,我们需要从左往右依此填入题目给定的 n 个数,每个数只能使用一次。那么很直接的可以想到一种穷举的算法,即从左往右每一个位置都依此尝试填入一个数,看能不能填完这 n 个空格,在程序中我们可以用「回溯法」来模拟这个过程。我们定义递归函数 backtrack(first, output) 表示从左往右填到第 first 个位置,当前排列为 output。
那么整个递归函数分为两个情况:
如果 first==n,说明我们已经填完了 n 个位置(注意下标从 0 开始),找到了一个可行的解,我们将 output 放入答案数组中,递归结束。
如果 first<n,我们要考虑这第 first 个位置我们要填哪个数。根据题目要求我们肯定不能填已经填过的数,因此很容易想到的一个处理手段是我们定义一个标记数组 vis[]来标记已经填过的数,那么在填第 first 个数的时候我们遍历题目给定的 n 个数,如果这个数没有被标记过,我们就尝试填入,并将其标记,继续尝试填下一个位置,即调用函数 backtrack(first + 1, output)。回溯的时候要撤销这一个位置填的数以及标记,并继续尝试其他没被标记过的数。
使用标记数组来处理填过的数是一个很直观的思路,但是可不可以去掉这个标记数组呢?毕竟标记数组也增加了我们算法的空间复杂度。
答案是可以的,我们可以将题目给定的 n个数的数组 nums 划分成左右两个部分,左边的表示已经填过的数,右边表示待填的数,我们在回溯的时候只要动态维护这个数组即可。具体来说,假设我们已经填到第 first个位置,那么 nums 数组中[0,first−1] 是已填过的数的集合,[first,n−1] 是待填的数的集合。我们肯定是尝试用[first,n−1] 里的数去填第first 个数,假设待填的数的下标为ii ,那么填完以后我们将第ii 个数和第first 个数交换,即能使得在填第first+1个数的时候nums 数组的[0,first] 部分为已填过的数,[first+1,n−1] 为待填的数,回溯的时候交换回来即能完成撤销操作。
举个简单的例子,假设我们有 [2, 5, 8, 9, 10] 这 5 个数要填入,已经填到第 3 个位置,已经填了 [8,9] 两个数,那么这个数组目前为 [8, 9 | 2, 5, 10] 这样的状态,分隔符区分了左右两个部分。假设这个位置我们要填 10 这个数,为了维护数组,我们将 2 和 10 交换,即能使得数组继续保持分隔符左边的数已经填过,右边的待填 [8, 9, 10 | 2, 5] 。当然善于思考的读者肯定已经发现这样生成的全排列并不是按字典序存储在答案数组中的,如果题目要求按字典序输出,那么请还是用标记数组或者其他方法。
class Solution:
def permute(self, nums):
"""
:type nums: List[int]
:rtype: List[List[int]]
"""
def backtrack(first = 0):
# 所有数都填完了
if first == n:
res.append(nums[:])
for i in range(first, n):
# 动态维护数组
nums[first], nums[i] = nums[i], nums[first]
# 继续递归填下一个数
backtrack(first + 1)
# 撤销操作
nums[first], nums[i] = nums[i], nums[first]
n = len(nums)
res = []
backtrack()
return res
6.在两个排列数组中各取一个数,使得两个数的和为m
参考答案:
思路:
最容易想到的方法是枚举数组中的每一个数 x,寻找数组中是否存在 target - x。
当我们使用遍历整个数组的方式寻找 target - x 时,需要注意到每一个位于 x 之前的元素都已经和 x 匹配过,因此不需要再进行匹配。而每一个元素不能被使用两次,所以我们只需要在 x 后面的元素中寻找 target - x。
代码:
class Solution:
def twoSum(self, nums: List[int], target: int) -> List[int]:
n = len(nums)
for i in range(n):
for j in range(i + 1, n):
if nums[i] + nums[j] == target:
return [i, j]
return []