小P周刊 Vol.02

132 阅读2分钟

小 P 为你送上本周值得一看的信息~

有意见、建议与吐槽,欢迎直接给小 P 留言哦~

学术前沿

Nvidia 的下一代 GPU 架构: Transformer 正在改变人工智能

Nvidia 即将推出的 GPU——Hopper H100 的架构变化中有一项是 Transformer Engine。它能与 Hopper 的硬件架构结合,在训练神经网络的每一步动态地选择神经网络中每一层需要的精度,从而加快神经网络的训练速度。

该 GPU 将在 2022 年第三季度上市。

Equilibrium Aggregation

在这篇文章中,作者先介绍了图神经网络的一个核心构件:Permutation invariant aggregation functions,以及它的重要性。之后,作者介绍了一种使用 implicit layer 的新的 aggregation 形式:Equilibrium Aggregation。

An empirical analysis of compute-optimal large language model training

DeepMind 发表的这篇论文提出了一个新的观点:给定固定的 FLOPs 预算,若要计算最优的训练,则模型大小和训练数据集的大小应该是等比例的——模型大小每增加一倍,训练数据集的大小也应该增加一倍。

作者团队通过训练一个更适合计算的模型 Chinchilla 来证明这个观点。在大量的下游评估任务中,该模型的表现一致且明显优于 Gopher、GPT-3、Jurassic-1和Megatron-Turing NLG。

值得一提的是,Chinchilla 在 MMLU 基准上的平均准确率达到了 67.5%,比Gopher 提高了 7% 以上。

基础技术

我家的猫是不是图灵完备的?

作者用自己的猫作为例子,解释什么是图灵完备性。

设置 Linux 服务器的前5分钟

当你开通一台 Linux 服务器时,如何设置才能保证安全?本文介绍了应该最先做的几件事。

设计哲学

我的 25 条工程原则

作者基于他自己的经验,提出了 25 条软件工程原则。

世界上最糟糕的音量控制界面

这篇文章是 reddit 的《最糟音量控制界面设计大赛》楼中的迷惑设计大赏。

工具推荐

输入文字推荐 Emoji

输入一段文字,这个网站会推荐给你符合内容的 emoji。

可爱的免费素材集: いらすとや

该网站提供可供免费使用的可爱图像素材(包括商用)。内容支持日英双语搜索。


关注 公众号「SenseParrots」,获取人工智能框架前沿业界动态与技术思考。