算法工程师成长之路-《多模态大模型：技术原理与实战》作者访谈本文是笔者和受访者一次周末闲谈的纪实。笔者和故事主角曾共事3

序：本文是笔者和受访者一次周末闲谈的纪实。笔者和故事主角曾共事3年，共事期间，发现故事主角做事总是充满着激情，做事效率极高，健谈。本文记录了一个冬日的下午，俩人在北京星巴克咖啡屋聊天的话题，其中Q为笔者的提问，A为故事主角的回答，笔者整理成文，分享社区已经得到故事主人的同意。
郑志军，NLP领域硕士，2018年研究生毕业后入职某国企，在人工智能研究院担任算法工程师，5年期间从职场小白蜕变成部门挑大梁者，成为团队的核心技术人员，曾担任过部门AIGC组长，为公司技术委员会成员，近两年一直从事大模型的研发。

偶然机遇进入互联网领域

Q: 志军，谈一谈你是怎么进入这个行业的？
A: 进入NLP行业纯粹是上天的安排，命运之使然。我没想过读研的时候要选择什么专业，当时报考自然语言处理专业纯粹是被调剂到这个专业，但是我很感谢上天的选择，它赏给我一份不错的职业。
Q: 作为一个过来人，研究生专业的选择有什么建议的吗？
A: 我觉得读研遇到一个好的导师是非常重要的，当然，我遇到的导师就非常的好：导师给我们的印象就像自己的长辈一般，不仅仅在学术上给于我们指导，在人生上也给了我们充分的引导。我的导师带我参加了很多学术会议，让我们小白见识真正学术会议是什么样的；他同时也会陪着我们在操场散步，给予我们人生的经验。整个师门在这样愉快的环境下学习成长，一起上学，一起吃饭，一起下课，一起撸串，至今回忆起来都觉得幸福满满。
Q: 谈一谈读研期间，感觉最有用或者学的最好的3门课。
A: 研究生最有用的三门，第一是Python教学，现在python是我唯一会使用的语言了；第二门是深度学习导论课程，没有太高深的理论，但确是我们踏上NLP的铺路石；第三门是传统机器学习的课程，老师现场给我们推导各种公式，虽然现在很多机器学习公式推导过程还是没学会，但很敬佩老师强悍的数学推理能力。
Q: 聊一聊机器学习、深度学习的路径，以及Python语言学习的心路历程。
A: 本科的时候开始学了C和C++，这俩门语言用的也不是很好，但有了之前的编程基础，再学Python的时候就容易多了。Python要比其他语言更容易懂，Python语言在语法和规范更加简洁，更接近于人类语言，尤其是英语，不像C语言那么抽象。
至于机器学习以及深度学习心得，第一是要多看论文，第二是多模仿别人在GitHub上的高star项目，站在巨人的肩膀上永远比自己单打独斗高效得多。我曾经有个错误的认知：觉得“真男人”都是自力更生的，依靠别人算不上好汉。于是呼，我曾经闭关锁国，想着要不借助别人整出一套使用CNN训练的模型；最后搞出的东西落后别人一个时代，还白白浪费了时间。
Q: 机器学习对数学有什么要求吗？
A: 学机器学习对数学没有硬性要求，但是数学思维好的人学算法有很大优势。这本书的领一个作者以及读研时的一些师哥，他们都是数学出生，明显感觉他们的逻辑思维能力很强。好多理论到尽头都是数学，真正懂数学思维的人能对各种公式信手拈来，而不像其他人机械的记忆公式。

5年成为团队核心

Q: 工作5年印象最深或者成就感最高的项目或者产品是什么？
A: 工作5年印象最深，最具成就感的应该就是致知大模型了。毕竟之前没有做过这些东西，也没有人指引，全靠自己摸索；再者，格物大模型的研发不像我们平时做的小项目，时间跨度比较久，需要投入精力多。在研发过程中，我逐渐培养出了自己的世界观和方法论；它教会我如何解剖问题，如何做好一件无头绪的难事。
Q: 什么时候感觉自己技术突飞猛进或者开始能独当一面了？
A: 技术不会一跃而起，技术都是慢慢成长，成熟起来的。至于突然感觉自己能独挡一面，那应该是3年前的某上海项目；当领导把任务交给你负责时，你没有了依赖，只能试着独当一面；领导在身边的时候，不明白还可以问领导一声，天塌下来有高个子顶着，那时候不行，你在现场是这个项目的责任人。
Q: 从普通员工到担任组长过程中的心态变化
A: 自己一个人干活远没有当组长候累，自己做事只需要把自己的一亩三分地耕完就行，甚至还能划水；但是担任组长之后就不一样了，一旦我懈怠了，可能整个组都要落后，不但要每天push自己，还得push组员；总的来说就是岗位不同了，责任也不同了。
Q: 那个ChatGPT火了之后，当时是个自是什么想法？
A: ChatGPT出来的时候，我是没有跟上大众的，我第一反应是这是不是也是一个噱头。但在2023年春节之后，我们正式自己做自己的_致知2.0对话大模型_，尤其是在对训练好的大模型进行测试过程中，我才感觉到大模型远比自己想象中的要牛逼，尽管它也有很多的这个缺点，但是它的这个优点也真的是太多了，真的是瑕不掩瑜。
Q: 当时你们发布的致知大模型1.0的时候刷新了CLUE两项任务榜单，方便聊一聊当时的心情吗？
A: 刷这个榜单给我最大的感觉并不是在这CLUE榜单上拿到多少的名次，真正让我觉得非常自豪的就是跟其他同一模型相比，在同样参数情况下，我们确实是比其他的模型都要好，在这个时候哪怕就是高0.1个点，你都觉得很自豪。

闲聊ChatGPT

Q: 给工程人员或者小白科普一下什么是大模型，以及大模型目前的发展状态。
A: 在我看来参数至少得达到几十亿(比如：最少60、70亿)，同时具有生成式能力，我认为这就是大模型。
大模型的发展之路，我觉得有几条线能走：
一条线是从单模态向多模态发展，而且愈演愈烈的趋势。2023年大家都在卷单模态，到现在也没办法再卷了，而且也不好再卷了；2024年多模态出来的反而会越来越多，在多模特上面，一方面是它有好多点要去攻克，另外一方面你发现有很多点能被攻克，那就很吸引大家了呀，所以大家就都往那个方向上发展。
另一条线是卷应用。现在的应用是铺天盖地的使用大模型，我个人十分看好大模型的应用，我相信之后的需求也会越来越多。好多人说现在是互联网的寒冬，这点我倒不认同；我觉得现在所谓的互联网寒冬，被开除的多半是前端或者是游戏等这些行业。你说人工智能会不景气，我不相信，我相信人工智能只会越来越景气。
Q: 以前你们做自然语言处理的时候，用到大模型了吗？比如说文本改写，文本生成之类的这些NLP任务，用到大模型没有？
A: 没有的，那个时候都不算是用大模型，那个时候自回归模型参数没有多大，也就才几个亿。当ChatGPT出来之后，才彻底奠定了这条路线。
Q: 自己训练一个大模型肯定是非常昂贵的，尤其GPU资源昂贵，大部分中小厂都是通过微调或或说量化压缩。那可以谈一谈你们在部署当中的一些经验，或者微调之类的，给大家分享一些微调和部署的一些经验之谈。
A: 我觉得其实对于很多公司来说，站在巨人的肩膀上真的是一个很不错的选择。你想想科技巨头做大模型的时候花了多大的这个精力。光是数据量就是几十T，而且这还是最原始的状态，如何筛选，如何配比都是核心机密；即使你这些问题解决完了，还得有海量的服务器来供你训练，所以我觉得中小公司不如站在巨人的肩膀上。
从某种程度程度来说，尽管现在大模型性能已经很好了，但是距离实际应用场景，其实还是有一段的差距；当然我上面说的这个话，仅限于非ChatGPT、ChatGPT-4之类；也就说，除了Open AI之外，其他的大模型，离实际应用其实还是有一些差距的。所以还是要微调，但这反而又陷入到第三代范式的那种感觉，但是其效果不是第三代范式可比的。
Q: 如果是公司微调的话，GPU和服务器资源昂贵吗？
A: 不昂贵，如果仅仅是130亿参数的大模型的话，需要的GPU资源真的不多，中小型公司足够承担得起。
Q: 大厂做大模型有什么优势？
A: 首先是大厂有钱，有钱随便训，其次服务器资源充足，三是业务场景支持，所以大厂天生优势明显。但是并不能通吃天下，尤其针对业务、数据敏感的ToB领域，小厂还是有很大的生成空间的。

写书需要自制力

Q: 本书是什么时候开始着手写的呢？写作过程中遇到什么困难？
A: 六月份开始写的，遇到最大困难就是要求你系统性的掌握一片知识，所以你就得不断的看，不断地总结，然后才能下笔写书。
Q: 写书，有没有一个给自己的一个时间限定，或者是一个硬性安排，比如说我周几到周几就必须写多少章节，我写多少字
A: 好多时候计划赶不上变化，我曾经给自己立个规定每天规定写多少时间，但大多时候写不出来，是真的写不出来。deadline是个好东西,它会逼着你写，不写出来都不行；有的时候没有人逼你一把，你都不知道自己的潜力到底有多大。
Q: 有些从其他行业想卷AIGC的，或者还在学校的在校生，将来他们想跨到AIGC大模型行业来，有什么建议吗？
A: 我觉得这行既好入门也不好入门，目前来看，AIGC我觉得已经开始有点卷起来了，我建议可以多往多模态那边走一些，因为我觉得多模态之后可能会更火。另外文本文本大模型做的人也不少了，也可以考虑代码生成的这条路。
AIGC是潮流和趋势，不管你喜欢不喜欢，社会都会朝这个方向发展；所以我觉得早入局铁定比晚入局要好，早点接受、早点拥抱大模型，才能让我们在未来生活中更加从容。
Q: 还有一些额外的建议吗？
A: 我建议大家都动起来，可以去做实习。空想没有多大的用处，我真心建议大家走出去，看看外面对大模型的真实需求是什么！

同行寄语

大多时候，我也不清楚自己想做什么；但是能行动的时候千万别躺着，因为躺着想这些东西，你永远想不出来这一行到底适不适合你，只有你出去做的时候你才知道对与不对；即使发现不对了，你也别觉得浪费时间，因为你躺着不动也是在浪费时间,我所以觉得要做个行动派。其次，觉得得什么时候别忘了勤劳刻苦，勤劳刻苦不能保证成功，但是他至少能让你不被饿死，我始终相信一个勤劳的人到哪儿，在哪一个行业都不会混的太差的。