
获得徽章 0
- #GPTs 的奇思妙用# 【如何在带有GPU的多台机器上高效管理深度学习任务?】
我们有一个计算系统,包括四台机器,每台机器配备八个GPU。在我们的日常操作中,有2-3个深度学习模型训练任务,持续时间从几小时到几天不等。挑战在于我们无法预测任务何时会完成。
我正在寻找一个满足以下要求的解决方案:
1.能够随时启动新任务,如果有满足任务需求的可用空闲资源,它将自动运行。
2.对所有进行中任务进行全面监控,以跟踪它们的状态。
3.具有停止、暂停、重新启动或插入任务的灵活性。
4.易于部署和使用,考虑到我们在系统管理方面的有限资源。
是否有任何推荐的解决方案或框架符合这些要求?非常感谢您的见解和经验。展开赞过评论2 - 技术社区的 PM 应该更拥抱技术一些:LLM 无疑将成为下一代产品的骨架,技术社区的 PM 应该更主动的去了解 LLM 的能力,而不是用了几次 ChatGPT 就瞎鼓捣产品功能了。目前能看到的掘金,SF 和 CSDN 的产品在拥抱 LLM 的时候,最煞笔的是 CSDN , 用 LLM 去生成虚假的评论和机器人,次煞笔的是 SF , 用 LLM 去生成问题的回答(如果不是技术问题,这或许是一个有趣的尝试),虽然很不想说,但是掘金的 PM 也是个煞笔,我看到的 LLM 有关的功能就是一个大模型子站,可以提供大约5分钟的价值。我想 LLM 在技术社区,至少有两个点我认为还挺实用:1. 提供更合适社区风格的文章标题和内容改写。2. 定期分析全站文章,总结技术演进路线,分领域技术热点、将文章按内容深度分级。3. 利用 LLM 设计 agent,提供深度内容的解读、demo 等。 最近几年,我慢慢感觉互联网产品创新已死当然这不怪你,毕竟你错过了繁荣的时代。但是 PM 真的别混日子了~展开评论点赞