果冻虾仁的个人主页 - 动态

知乎同名 @果冻虾仁

·

英伟达中国特供版H800
受美国芯片禁令影响，英伟达为了卖货，发布过多款中国特供版GPU，即阉割版，以满足美国法律合规要求。

2023年3月推出H100的特供GPU H800。所以虽然800比100大。但其实是阉割版。

H800在H100基础上的阉割点如下：
1. NVLink带宽砍半，降低多卡/多节点集群训练效率，但对单卡训练无影响。

2. FP64算力大幅度削减，无法进行高精度科学计算。但是对模型训练无影响，因为模型训练主要用FP32/FP16/BF16/FP8。

可以看出老黄还是有私心的，名义上为了合规阉割了性能，但对模型训练影响有限，主要是影响效率，增加了训练时间，但并没有导致无法训练模型。对于这种挂狗肉卖羊头的行为，美国岂能坐视不理，所以2023年10月，美国把H800也列入禁售名单。

展开

大模型生态圈

知乎同名 @果冻虾仁

·

28天前

如果你的龙虾的IM，没有终止按钮。。在任务出现死循环的时候，发：停止、终止、中断等prompt是没用的。最好是使用内置指令/stop来终止它。

大模型生态圈

赞过

3

知乎同名 @果冻虾仁

·

1月前

1986年，BP算法的引入虽然给神经网络带来短暂的复兴，但彼时多层感知机（MLP）只有输入层，隐藏层，输出层三层。主要是由于梯度消失和梯度爆炸问题，导致加更多层数无法训练。
1990年，SVM为代表的传统机器学习的强势崛起，性能和效果碾压神经网络，并且有精密的数理基础做支撑。神经网络再度进入至暗时刻。
2006年，Hinton首次提出来深度学习的概念，用来摆脱早已被污名化的神经网络一词。技术上首次引入了无监督学习预训练+有监督学习微调的方法，缓解多层神经网络的训练问题。
2012年，Hinton的学生在ImageNet大赛中异军突起，神经网络终于登堂入室，开启了名为深度学习的新纪元。
#挑战每日一条沸点#

展开

知乎同名 @果冻虾仁

·

1月前

1958年感知机（Perceptron）的出现，成为神经网络历史上第一个可训练并进行模式识别的模型。
1969年感知机被发现无法解决非线性问题（比如XOR）。
彼时大家都知道引入非线性函数并且让感知机变成多层，可以在理论上解决这个问题。但是当时这种模型无法训练。
1986年Hinton等人在神经网络中推广反向传播（BP）算法，并引入了Sigmoid等平滑可微的非线性函数，解决了多层感知机（MLP）的训练问题。

展开

知乎同名 @果冻虾仁

·

1月前

#挑战每日一条沸点# vllm启动的时候可以设置--max-model-len参数，限制输入的prompt的token长度，对于超过限制的直接拒绝处理，因为可能有显存爆掉的风险。

如果vllm在启动的时候没有设置--max-model-len，vllm会读取模型config.json中max_position_embeddings参数作为max-model-len的值，max_position_embeddings表示的是模型训练的时候支持的位置编码的最大长度。所以vllm如果设置的--max-model-len大于config.json的max_position_embeddings直接启动失败。

展开

大模型生态圈

赞过

1

2

知乎同名 @果冻虾仁

·

2月前

sglang使用tp的时候，要设置两个环境变量GLOO_SOCKET_IFNAME和NCCL_SOCKET_IFNAME，比如：
export GLOO_SOCKET_IFNAME=eth0
export NCCL_SOCKET_IFNAME=eth0
Gloo是CPU通信库，NCCL是Nvidia GPU的通信库。
而vllm的tp不需要设置这个，因为vllm的tp只能是单节点（机器）内的tp，sglang的tp可以跨节点。

展开

大模型生态圈

赞过

3

知乎同名 @果冻虾仁

·

2月前

初学者一个常见的误解是以为transformers或者vllm的模型对象调用generate方法是做一次forward…其实是N次，一次forward一会生成一个token，generate会生成多个token直到生成完毕或者达到最大token数限制

大模型生态圈

赞过

1

知乎同名 @果冻虾仁

·

2月前

serve run app.yml --runtime-env-json='{"env_vars": {"ABC": "xxxx"}}'

如果ray serve除了可以通过yaml中注册环境变量，也可以像上面这样在运行时注册环境变量，对于一些偏动态的数据，这样设置环境变量更方便。当和yaml内环境变量同名的时候以yaml为准

展开

大模型生态圈