大模型 - 打工的小黑猫的收藏集 - 掘金

大模型

打工的小黑猫

更多收藏集

21篇文章 · 0订阅

MiniGPT4Qwen-14B：极少量可训练参数的双语多模态大模型DeepSpeed流水线并行的踩填坑历程

MiniGPT4Qwen14B对语言模型进行了Scale Up，采用Qwen-14B-Chat模型作为底座，以获得更好的对话体验。值得一提的是，为了能在3090上训练14B～15B的不量化的模型

Coobiw
2年前
1.7k
2
评论

MiniGPT4Qwen-14B：极少量可训练参数的双语多模态大模型DeepSpeed流水线并行的踩填坑历程

CVer从0入门NLP（一）———词向量与RNN模型

NLP的内容很多，你如果在网上搜NLP学习路线的话你会看的眼花缭乱，本系列主要会介绍一些重要的知识点，一些老模型就不介绍了，感觉用处不大，我们的目标是向经典模型看齐，如GPT系列，BERT家族等等。

秃头小苏
2年前
2.3k
40
21

CVer从0入门NLP（一）———词向量与RNN模型

使用PyTorch构建神经网络以及反向传播计算

在训练神经网络时，常用的算法是反向传播。该算法中，参数根据损失函数相对应的给定的参数的梯度进行调整。它支持任何网络的梯度计算。通过构建一层神经网络来进行细致的分析；

薄的算法之芯
4年前
1.1k
1
评论

使用PyTorch构建神经网络以及反向传播计算

收藏！836分钟的谷歌机器学习教程，带你10分钟看完！—— Jinkey 原创

为了尊重原意，部分名词不进行翻译。为了更通俗易懂的解释概念，使用低维度的情况来解释。预测的事物，即 y = ax + b 中的 y 变量，如房价、动物种类、是否垃圾邮件等。输入变量，即 y = ax + b 中的 x 变量，x 可以是一个，也可以是多个，用 {x1, x2…

Jinkey
8年前
5.1k
152
评论

收藏！836分钟的谷歌机器学习教程，带你10分钟看完！—— Jinkey 原创

LLM应用开发与落地：使用gradio十分钟搭建聊天UI

一、背景如果你是做LLM应用开发的，特别是做后端开发，你一定会遇到怎么快速写一个聊天UI界面来调试prompt或agent的问题。这时候的你可能在苦恼中，毕竟react.js, next.js, c

前行的七哥
2年前
2.3k
2
1

LLM应用开发与落地：使用gradio十分钟搭建聊天UI

逐步掌握最佳Ai Agents框架-AutoGen 十 Web应用

Streamlit + AutoGen, AI Chat Web应用搭建完成。假如您还没有将AutoGen Web化，看这篇。

旅梦开发团
2年前
5.5k
54
评论

逐步掌握最佳Ai Agents框架-AutoGen 十 Web应用

逐步掌握最佳Ai Agents框架-AutoGen 一

微软最新推出的大语言模型框架AutoGen，号称目前地表最强AI Agents。不知道有多少朋友和我一样，在感受了LangChain Agents的大力出奇迹后，又心痒难耐想把AutoGen搞起...

旅梦开发团
2年前
8.6k
68
评论

大模型推理框架概述

从 ChatGPT 面世以来，引领了大模型时代的变革，除了大模型遍地开花以外，承载大模型进行推理的框架也是层出不穷，大有百家争鸣的态势。本文主要针对业界知名度较高的一些大模型推理框架进行相应的概述。

吃果冻不吐果冻皮
2年前
6.7k
3
评论

标准的Attention到稀疏Attention

简介依旧借鉴苏神的博客【为节约而生：从标准Attention到稀疏Attention】进行复述和整合，基本都是苏神内容，但打字是我打的。

moka11moka
3年前
2.9k
2
评论

极智AI | 大模型优化之KV Cache

大家好，我是极智视界，本文来介绍一下大模型优化之KV Cache。希望我的分享能对你的学习有一点帮助。

极智视界
2年前
4.2k
3
评论

极智AI | 大模型优化之KV Cache