👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!
🉑 支付宝 X 堆友 | 新春音浪 AIGC 贺岁MV大赛,奖金池很有诚意啊!
补充一份背景:堆友 (D.Design) 是阿里巴巴推出的一个新的在线设计平台
支付宝和堆友联合推出了一场 AIGC 视频创作比赛,邀请创作者使用AI工具创作贺岁 MV,并提供了丰厚的奖金池 (* ̄3 ̄)╭ 而且不限工具、不限风格、时间充裕!感觉有时间可以玩一玩~
比赛分为「大众组」和「学生组」,设置了近百个获奖名额、总共23万元的奖金池!堆友的比赛一直主打奖品丰厚!每次都超心动啊~ ⋙ 了解更多
征集时间:1月8日-2月18日
视频时长:建议30秒以上
创作要求:可以使用 Stable Diffusion、Midjourney 等任意AI工具生成图片或视频,允许使用PS、剪映等工具进行编辑;提供创作说明、Prompt、创作过程等可作为评审加权参考
👀 Runway GEN:48 | 第二届48小时AI短片创作比赛,开放报名啦!
补充一份背景:Runway 是一款强大的、基于AI的图片&视频编辑工具;GEN:48 是 Runway 举办的一个AI短片创作挑战比赛,今年已经是第二次举办 Runway GEN:48 全称是 Runway GEN 48 Hour Short Film Competition,是一场面向全球的线上创作比赛。比赛主题和创作要求在开赛时宣布,届时参赛者需要在48小时内构思并创作一部 1~4 分钟的电影短片。
参赛时间:2月3日-2月5日
每队人数:1-3 人
参赛激励:参赛团队可得到 30万 Runway 生成积分用于比赛创作
获奖作品:5000 美元,100万 Runway 生成积分,Epidemic Sound 一年会员,作品在 NYC 和 LA 的AI电影节上放映
🉑 重要投资 | a16z 向 Quora 投资 7500 万美元,Poe 估值达到5亿美元
补充一份背景:Quora 是全球知名的在线问答社区,类似于海外版「知乎」;Poe 是 Quora 推出的AI聊天机器人聚合平台,几个月前允许用户创作 Bot 并可以盈利 (一定程度上类似 OpenAI GPTs)
2024年1月10日,Quora CEO @Adam D'Angelo 宣布,Quora 从 a16z 获得了新一轮 7500 万美元的融资,用以加速 Poe 平台的增长。Adam D'Angelo 专门提到,本次融资后的大部分资金将用于奖励 Poe 平台的 Bot 创作者,帮助个人开发者和开发团队在 Poe 平台实现盈利,并借此将AI推广向更广泛的人群。
在 Adam D'Angelo 看来,AI 时代的 Poe 定位类似于互联网早期的浏览器,需要完成两个目标:成为消费者与各种AI产品交流的最佳方式 & 成为开发者构建AI聊天产品并触达大众的最简单的方式。
公告披露了一些基础数据,例如Poe 总用户 (付费用户+免费用户) 已超百万,创建的 Bot 已经有数百万个;Quora 月活超4亿且有着健康的现金流,公司将同时运营 Quora 和 Poe 两个产品
a16z 在其官方网站发文确认了这一信息,并给出了详细的投资理由。日报将其总结为以下5个方面,可以看出投资人非常专业且务实,而且给同类型内容平台指出了发展方向:
市场潜力:尽管AI模型和工具的发展迅速,但普通消费者对AI的接触仍然有限;Poe 可以帮助全球5亿+互联网用户更容易地访问和使用AI
聚合多个大模型:Poe 聚合了全球领先的多个大模型,包括 OpenAI GPT 系列、Anthropic Claude系列、Google Gemini / PaLM、Meta Llama 2、StableDiffusionXL、Mistral 等等,更符合用户的多模型需求场景
创建并使用 Bot:创作者可以使用现有模型构建 Bot 并从中获益,用户可以发现 AI Bot 并自定义工具集,双方可以形成网络效应
Quora 社区优势:Quora 社区有着超过4亿优质用户并沉淀了大量专业知识,并且为 AI Bot 提供了一个独特且大流量的分发渠道
团队&发展速度:Poe 团队在短时间内实现了快速发展,包括支持了多种语言、开发了PDF摘要等功能、实现了创作者盈利、推出了 iOS、Android 和 Windows 版本应用等
👀 收藏清单 | AI工程师都应了解的生成式AI框架和工具
生成式人工智能 (Generative AI) 常用的框架和工具有哪些?看看这篇文章的总结!!AI工程师的效率宝藏大起底,快快加入自己的工具清单~
LangChain
用途:开源平台,用于构建基于大语言模型 (LLM) 的应用程序,例如 ChatGPT 聊天机器人
功能:提供了一套全面的套件,可以在不同用例中使用大语言模型,例如聊天机器人、自动问答、文本摘要等
工作流程:括将大量数据分解成小块,嵌入向量并存储在向量数据库中;用户输入提示后,LangChain 使用大语言模型检索相关信息并生成回答
SingleStore Notebooks
基于Jupyter Notebook的工具,专为 SingleStore 分布式 SQL 数据库而设计
特点:提供了原生的 SingleStore SQL支持,支持 SQL 和 Python 的互操作性,支持协作工作流程,提供了交互式数据可视化支持,对于新手易用
用途:数据探索和分析,特别是与 SingleStore 数据库一起使用
LlamaIndex
用途:高级编排框架,增强大语言模型的能力,允许它们与私有或特定领域的数据源交互
功能:提供了一种结构化的方式来摄取、组织和利用各种数据源,包括 APIs、数据库和 PDFs
工作流程:通过将数据索引为大语言模型优化的格式,LlamaIndex 使得用户能够通过自然语言查询与他们的私有数据无缝对话
Meta Llama 2
背景:使用公开在线数据进行预训练,其中包括书籍、文章、其他书面内容等大量语料库
用途:用于聊天机器人的集成,提供了细致且连贯的对话响应
特点:通过 RLHF 进行监督微调和强化学习,包括拒绝采样和近端策略优化 (PPO) ,提升了规模、效率和性能,,适用于不同的计算能力和应用场景
Hugging Face
平台:提供了模型中心、数据集、模型训练、微调工具、应用构建、社区和协作等功能
功能:拥有大量预训练模型,覆盖了文本分类、问答、翻译和文本生成等多种 NLP 任务
用途:提供了丰富的数据集资源,支持模型的训练和微调;与 TensorFlow 和 PyTorch 等流行编程库无缝集成,便于开发AI应用
Haystack
类别:端到端框架,用于构建基于 NLP 技术的应用,包括但不限于生成式AI
功能:支持检索增强生成 (RAG) 、提供一套全面的 NLP 工具和组件、灵活&可扩展
用途:结合检索&生成方法进行搜索和内容创建,提供全面的 NLP 工具和组件,并且能与流行的生成式AI模型进行集成
🉑 播客推荐 | 42章经:24/25 年是下一代浪潮最关键的两年
补充一份背景:42章经的播客品质都非常高!尤其关于AI的几期播客,频繁出现在我们的播放、收藏和推荐清单里 🔍
这期播客是 42章经 创始人 @曲凯 的个人年终总结。2023年,他聊过了市场上大部分的 AI 创始人和几乎所有的 AI 投资人,服务了十多家 AI 公司的融资并且参与了其中四家的投资,视角可谓一线且全面。
在这期播客中,他毫无保留地分享了对于 23 年 AI 市场的总结观察,以及对 24 年及之后市场变化趋势的判断。他的一个核心观点是: 24年和25 年就是我们这代人最关键的两年的机会。
这期播客评论区,有大量优质留言&曲凯的互动,推荐推荐!这个时代有大量的优秀团队在瞄着AI赛道呀~ [摩拳擦掌👏]
0:20 24、25 年会是下一代浪潮最关键的两年
7:51 当下市场的核心问题:AI 并不能被称为一个「赛道」
9:16 创业者要解决的核心问题从「如何讲故事拿融资」变成了「如何靠自己赚钱做收入利润」
11:18 解决大模型可控性差的三条路径
14:29 技术不成熟的阶段,反而更需要好的产品经理
16:22 2024 会不会是 AI 时代的 2010 (移动互联网元年)?
18:36 一个判断:24 年会出现大规模落地的产品,25 年 AI 会迎来爆发
19:11 当下一定要接受的两个设定
24:00 一些未来的方向和机会
37:45 2024 年我们判断公司和选择项目的标准
🔔 精华整理汇总
历史上没有哪个赛道能够像这波AI一样,迅速建立极大的共识,但又同时存在非常大的非共识。共识是AI是个非常颠覆性创新的大机会,非共识则是 AI 到底会在什么时候以哪种方式落地
2023年是对大多创业者非常不友好的一年:市场还早,变化很快,投资团队最终选择投资「人」而不是AI。最后拿钱的团队很多不是靠着逻辑、故事、产品或数据,反而是靠着创始人背景融资
为什么2023年没有AI产品能够落地呢?关键还是大模型的可控性差。解决大模型可控性差有三条路径:
交付结果。典型公司是 Fancytech。在自己体系内部用 AI 和人工结合的方式来操作,不让客户直接和产品发生交互
区分生产端和消费端。典型公司是 S2B2C 类企业。让 AI 只和生产环节发生关系,不和消费环节发生关系
收敛场景、有限使用。典型公司是妙鸭。AI 产品落地要么选择一些已经可控性比较高的场景,要么就是让 AI 和其他各种现有的技术配合
当下需要要接受的两个设定:
市场还早,大模型能力未达标,现在能落地能赚钱的公司大多是套壳的、擦边的、蹭的,真信 AGI,真想做 AI 的大多都在痛苦挣扎
目前市场上所有的产品都将成为先烈和炮灰。大部分产品会随着时间发展而淘汰,小部分产品会逐渐升级迭代成完全不同的逻辑 (不过这些迭代,大概率会发生在已有的公司和团队内部)
新一代创业者要充分认识,市场核心矛盾是如何把产品做到落地赚钱,在一两年里能把公司体量和组织结构养起来,然后随着技术的成熟而不断迭代产品和市场
一些未来的方向和机会:
所有的现存外包场景都有机会用AI的方式和组织结构重做一遍,并扩大 N 倍
大多的双边平台都有机会被 AI改造,非标服务可被 AI 标准化,生成式内容可把双边平台变成单边即可成立并快速起量
大多的复杂产品和交互形态都有机会被 AI Agent 简化成聊天类产品交付,大幅降低使用门槛
内容生成即渠道,解构渠道,未来 AI 时代内容生产和消费形式将发生颠覆性的变化 ⋙ 文字版原文
🉑 RAG 要点速查 | 一图掌握 RAG「从基础到进阶」完整内容
补充一份背景:RAG (Retrieval-Augmented Generation,检索增强生成) ,从外部知识数据库检索文档 (Retrieval component) 并将这些文档与用户的查询一起传递给大语言模型 (LLM) 以生成响应 (Generation component)
这份速查表介绍了 RAG 的作用、RAG 基础用法、RAG 高级用法 这三部分的要点内容。日报将主要内容整理成中文,👆 上方链接可下载 svg 高清文件~
🔔 Motivation
大语言模型 (LLM) 生成的答案可能不准确,因为
LLM 可能会产生幻觉 (hallucinations)
相关信息可能超出了 LLM 训练语料库的范围
LLM 无法访问最新的信息
🔔 Basic RAG
Basic RAG 部分提到的能力和技术,是构建一个有效 RAG 系统的基础,可以提高系统在理解和回答问题时的准确性和相关性。
关键能力 (Key Abilities)
噪声鲁棒性 (Noise Robustness):系统需要能够处理和过滤掉噪声数据,确保生成的信息质量
负拒绝 (Negative Rejection):系统应该能够识别并拒绝不相关或错误的信息
信息整合 (Information Integration):系统需要能够整合来自不同来源的信息,以提供全面的答案
反事实鲁棒性 (Counterfactual Robustness):系统需要能够处理与训练数据分布不同的情境,即能够对反事实情况进行推理
质量评分标准 (Quality Scores)
上下文相关性 (Context Relevance):生成的答案需要与用户问题的上下文紧密相关
答案相关性 (Answer Relevance):生成的答案应该直接回答用户的问题
忠实性 (Faithfulness):系统提供的答案应该忠实于检索到的信息,避免产生幻觉 (hallucinations)
🔔 Advanced RAG
Advanced RAG 提到的能力与技术,可以提升RAG 系统在处理复杂问题和数据时的性能,确保检索和生成过程能够相互协作,提供更准确和相关的信息。
RAG成功的要求
检索:必须能够找到与用户查询最相关的文档
生成:必须能够有效利用检索到的文档来充分回答用户查询
高级检索技术
块大小优化 (Chunk-size optimization):调整检索时使用的文档块大小,以提高检索效率和相关性
滑动窗口分块 (Sliding window chunking):使用滑动窗口技术来分块文档,以便更灵活地处理文档内容
知识图谱 (Knowledge Graphs):使用知识图谱来增强检索过程,提供更丰富的上下文信息
嵌入微调 (Embedding Fine-Tuning):对嵌入向量进行微调,以更好地匹配检索任务的需求
结构化知识 (Structured knowledge):整合结构化的知识信息,如实体和关系,以提高检索的相关性
元数据附加 (Metadata Attachments):将元数据附加到文档上,以提供额外的上下文信息
混合检索 (Mixed Retrieval):结合不同类型和来源的检索结果
问题嵌入转换 (Question-Embedding Transformation):对用户问题进行嵌入转换,以更好地与检索文档匹配
高级生成技术
信息压缩 (Information Compression):压缩检索到的信息,以便于后续的生成过程
生成器微调 (Generator Fine-Tuning):对生成器进行微调,以生成更准确和相关的答案
结果重排序 (Result Re-Rank):对检索结果进行重排序,以优化最终输出的顺序
适配器方法 (Adapter Methods):使用适配器来调整模型以适应特定的任务或数据
同时解决检索和生成成功要求的技术
整体微调 (Monolithic Fine-Tuning):对整个系统进行微调,以提高整体性能
生成器增强检索 (Generator-Enhanced Retrieval):通过生成器的输出来增强检索过程
检索基础模型 (Retrieval Foundational Models):构建强大的基础检索模型
迭代检索-生成 (Iterative Retrieval-Generation):采用迭代的方法,结合检索和生成过程,以逐步改进答案的质量
blog.llamaindex.ai/a-cheat-she…
这篇文章是上方速查表的拓展介绍长文,不仅详细介绍了关键组件的具体功能,而且附上了关键代码,搭配食用可以更好地掌握 RAG 知识和实践~
👀 DeepSeekMoE | 国内首个 MoE 开源大模型,技术报告&模型权重同时发布
补充一份背景:MoE (Mixture-of-Experts,混合专家架构) 上次引起广泛关注是 Mistral AI 发布的 Mixtral-8x7B 大语言模型,这种架构的核心思想是将一个大神经网络分解为多个小神经网络,每个小网络负责处理不同部分从而提高灵活性和效率
DeepSeek 率先开源了国内首个MoE大模型 DeepSeekMoE,全新架构,支持中英,免费商用。自研的全新MoE架构,多尺度(2B->16B->145B)模型效果均领先:
DeepSeekMoE 2B 可接近 MoE 模型的理论上限 2B Dense 模型性能(即相同Attention/FFN 参数配比的 2B Dense模型),仅用了 17.5% 计算量
DeepSeekMoE 16B 性能比肩 LLaMA2 7B 的同时,仅用了 40% 计算量,也是本次主力开源模型,40G 显存可单卡部署
DeepSeekMoE 145B 上的早期实验进一步证明该MoE架构明显领先于Google的MoE架构GShard,仅用28.5%(甚至18.2%)计算量即可匹配 67B Dense 模型的性
DeepSeekMoE 在框架上做了两大创新
细粒度专家划分:不同于传统MoE直接从与标准FFN大小相同的N个专家里选择激活K个专家,我们把N个专家粒度划分更细,在保证激活参数量不变的情况下,从mN个专家中选择激活mK个专家,如此可以更加灵活地组合多个专家
共享专家分离:我们把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余 ⋙ 阅读原文
🉑 新书追更 | 从头开始构建大语言模型,作者 Sebastian Raschka
补充一份背景:这本书处于 MEAP (Manning Early Access Program) 预览阶段,共8章,目前更新的2章允许在线阅读
根据 👆 上方预览链接可以看出,这本书「Build A Large Language Model」可以带你深入了解大语言模型的内容工作原理,教你从头创建、训练和调整大语言模型,一步步揭开 LLM 的神秘面纱~
跟随着书籍内容的展开,读者可以按照业界标准步骤来训练和开发自己的小模型,甚至可以在自己的笔记本上完成开发和部署! 还可以跟随作者的脚步构建各种使用的 LLM 应用 👏
👆 上图是作者整理的全书知识框架。日报把书籍目录整理如下,已经发布的前2章有更细致的大纲,其他章节待更新 (主题很新&质量不错,可追更哇 🧭
理解大语言模型
什么是LLM?
LLM的应用
构建和使用LLM的阶段
为不同任务使用LLM
利用大型数据集
GPT架构的深入观察
构建大语言模型
总结
参考文献和进一步阅读
处理文本数据
理解词嵌入
文本分词
将标记转换为标记ID
添加特殊上下文标记
字节对编码
使用滑动窗口进行数据采样
创建标记嵌入
编码词位置
总结
参考文献和进一步阅读
练习答案
理解注意力机制
从头开始实现GPT模型以生成文本
在未标记数据上进行预训练
为文本分类进行微调
使用人类反馈进行微调以遵循指令
在实践中使用大语言模型
而且!作者还在 GitHub 开源了书籍配套的全部代码!还在实时更新和维护中~ 这伟大的开源精神,值得一个 Star⭐
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!
◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!