获得徽章 0
大模型公司为什么要自己搞芯片? | 这些应用要被用起来
收益要大于显卡资源投入才行
所以openai会想自己搞芯片是有道理的
哪怕你做的再牛 用户使用成本太高
改造链路成本+api费用比或者说自己搭建环境费用
远远大于现有工作链路运行成本
使用概率就会下来
对于大模型公司能做到就是
1.提高模型能力,拉升能力下界,超过行业7分位
2.降低推理成本,让芯片高效低价
3.让模型推理成本低 并发、推理可复用
如果按这个逻辑看 未来大模型生态就是云计算的生态
大模型公司背后技术就是云公司 业务层面可能会出现差异 这是业务建模的事
他们的商业推理逻辑估计就是 要批量应用 成本必须要低
训练成本和推理成本都要低 特别是推理成本要低
所以搞芯圆厂逻辑上看也是可以理解的
所以你看网络上up宣传的工作流
一大把 但是估计也就他们自己能受益
大部分人看了也就是看了 无法很好和工作结合
反倒是科研学生群体把那些经典工作流用起来的比较能够真正受益
收益要大于显卡资源投入才行
所以openai会想自己搞芯片是有道理的
哪怕你做的再牛 用户使用成本太高
改造链路成本+api费用比或者说自己搭建环境费用
远远大于现有工作链路运行成本
使用概率就会下来
对于大模型公司能做到就是
1.提高模型能力,拉升能力下界,超过行业7分位
2.降低推理成本,让芯片高效低价
3.让模型推理成本低 并发、推理可复用
如果按这个逻辑看 未来大模型生态就是云计算的生态
大模型公司背后技术就是云公司 业务层面可能会出现差异 这是业务建模的事
他们的商业推理逻辑估计就是 要批量应用 成本必须要低
训练成本和推理成本都要低 特别是推理成本要低
所以搞芯圆厂逻辑上看也是可以理解的
所以你看网络上up宣传的工作流
一大把 但是估计也就他们自己能受益
大部分人看了也就是看了 无法很好和工作结合
反倒是科研学生群体把那些经典工作流用起来的比较能够真正受益
展开
评论
2
现代数学背后的易经思维和智慧
易 数 理,现代数学本质也是一种思维方式和表述语言,现代的科学语言大部分是围绕数学语言来表述的。所以在技术和产业界已经更熟悉了这套表述语言,但是背后陈述的思想是否有易经的思维和智慧呢,可以肯定是有的,只不过不是用我们熟悉的“易经”语言表述出来而已。
比如阴阳互生 平衡协调 在目前人工智能的大模型中就是很明显体现,对抗学习提升模型学习和迁移能力 平衡在大模型的ood问题里面也是用的特别多。所以易经的思想不是没用而是用了我们却不认识。至于是否易经语言表述会逐步流行于agi个人感觉这个是有可能对齐,但也需要我们的努力。agi一定是体系化的 君臣佐使 五行调和 平衡测度 这些理论都是可以引进来的 并且会很直接。但是现在缺少对易经理解很深刻的agi学者来做这层翻译和领导工作。
易 数 理,现代数学本质也是一种思维方式和表述语言,现代的科学语言大部分是围绕数学语言来表述的。所以在技术和产业界已经更熟悉了这套表述语言,但是背后陈述的思想是否有易经的思维和智慧呢,可以肯定是有的,只不过不是用我们熟悉的“易经”语言表述出来而已。
比如阴阳互生 平衡协调 在目前人工智能的大模型中就是很明显体现,对抗学习提升模型学习和迁移能力 平衡在大模型的ood问题里面也是用的特别多。所以易经的思想不是没用而是用了我们却不认识。至于是否易经语言表述会逐步流行于agi个人感觉这个是有可能对齐,但也需要我们的努力。agi一定是体系化的 君臣佐使 五行调和 平衡测度 这些理论都是可以引进来的 并且会很直接。但是现在缺少对易经理解很深刻的agi学者来做这层翻译和领导工作。
展开
评论
点赞
#新人报道# 关于保持更新版本模型前后一致的思考
保持更新版本模型保持前后一致性
图模型前后理解一致性
其实不一致的原因大体看来有3个:
1.条件laten分布的差异
2.文本到图对齐模型差异
3.diffusion生成过程的差异
我们在训练时候既然希望能够保持前后迭代的稳定,并且保持后一版本比前一版本更优秀。
那么其实我们确实需要保证在上个版本中条件laten尽可能一致,至少我们宏观表示一致,我们希望优化的是描述细节、细粒度对齐,那么我们是不是可以通过换词换细节描述方式让模型学会细节表述(比如文本被压到的空间分布是尽可能一致)
对于整体如果不符合预期的图文,我们就在新版本中让模型纠正到正确表示
也就是我们后续模型的迭代应该是在做基准模型的sft、rlhf对齐,如果真需要做二次预训练应该也是只对表述不好的图片进行学习
保持更新版本模型保持前后一致性
图模型前后理解一致性
其实不一致的原因大体看来有3个:
1.条件laten分布的差异
2.文本到图对齐模型差异
3.diffusion生成过程的差异
我们在训练时候既然希望能够保持前后迭代的稳定,并且保持后一版本比前一版本更优秀。
那么其实我们确实需要保证在上个版本中条件laten尽可能一致,至少我们宏观表示一致,我们希望优化的是描述细节、细粒度对齐,那么我们是不是可以通过换词换细节描述方式让模型学会细节表述(比如文本被压到的空间分布是尽可能一致)
对于整体如果不符合预期的图文,我们就在新版本中让模型纠正到正确表示
也就是我们后续模型的迭代应该是在做基准模型的sft、rlhf对齐,如果真需要做二次预训练应该也是只对表述不好的图片进行学习
展开
评论
3
TCP/IP
TensorFlow
掘金翻译计划
C++