终于来啦!DALL·E API公测开始;从加减乘除到机器学习·系列电子书;Python技术面试题库;新型AI图片库;前沿论文 | ShowMeAI资讯日报

548 阅读8分钟

👀日报合辑 | 📆电子月刊 | 🔔公众号下载资料 | 🍩@韩信子

📢 DALL·E API 开始公测,开发人员可调用 API 构建应用程序

openai.com/blog/dall-e…

11月3日,DALL·E API 的 Beta 版发布,开发人员可以通过 API 将 DALL·E 直接集成到应用程序和产品中。DALL·E 的灵活性允许用户创建和编辑从艺术到逼真的原始图像。据官方公布的数据,DALL·E 的使用规模已经超过 300 万人,每天生产超过 400 万张图像。

官方公布了一些典型应用。微软正在将 DALL·E 引入一款名为 Designer 的新图形设计应用程序中,该应用程序可帮助用户创建专业品质的社交媒体帖、邀请函、数字明信片、图形等。Designer 详细介绍

CALA 是一个领先的时装设计界面,可以将设计师的创意快速转化为设计草图、原型和产品,并将整个完整流程统一到了自己的数字平台。CALA 详细介绍

Mixtiles 是一家快速发展的照片创业公司,使用 DALL·E API 引导用户将最喜欢的照片设计为充满回忆的照片墙。用户只需上传照片并选择池逊、装饰风格、框架,Mixtiles 就可以将这些照片设计为漂亮的照片墙,并把打印出来的照片邮寄到用户手中。Mixtiles 详细介绍

工具&框架

🚧 『StockAI』新型AI图片库

www.stockai.com/

StockAI 是一个新型AI图片库,可免费下载。平台可以根据查询关键词进行图片搜索,未能检索到匹配图片的情况下,系统将立刻创建图片。

🚧 『pdf2docx』将 PDF 转换为 DOCX 文档

github.com/dothinking/…

pdf2docx 基于PyMuPDF 提取文本、图片、矢量等原始数据,基于规则解析章节、段落、表格等布局及样式,并基于 python-docx 创建Word文档。

需要注意的是,pdf2docx 目前暂不支持扫描 PDF 文字识别,且仅支持从左向右书写的语言,而且基于规则的解析无法保证100%还原 PDF 样式。

🚧 『LangChain』大型语言模型应用开发库

github.com/hwchase17/l…

LangChain 是一个大型语言模型(LLM)应用开发库。与孤立的大语言模型不同,LangChain 希望整合 LLM 以创建一个真正强大的应用程序,把 LLM 与其他计算或知识来源相结合。

🚧 『Rust Zoom』基于 Rust 构建的简易 Zoom 实现

github.com/security-un…

Rust Zoom 是一个基于 Rust 的简易 zoom 实现,可以有效进行会议和通信。

博文&分享

👍 『Book3 | Fundamentals of Mathematics』数学要素:从加减乘除到机器学习·书稿

github.com/Visualize-M…

这是作者的一套数学书籍,为了让大家学数学、用数学,甚至爱上数学,作者可谓颇费心机。丛书在内容创作时追求极致可视化,使用全彩图解让数学思想跃然纸上,并打破了数学板块之间的壁垒,让大家看到数学代数、几何、线性代数、微积分、概率统计等板块之间的联系,编织一张绵密的数学知识网络。

书籍对零基础读者友好,帮助从零开始学习 Python 编程,从写第一行代码到搭建数据科学和机器学习应用。本书主题是数学的基础要素,包含以下章节:

  • 万物皆数
  • 乘除
  • 几何
  • 代数
  • 笛卡尔坐标系
  • 三维坐标系
  • 距离
  • 圆锥曲线
  • 深入圆锥曲线
  • 函数
  • 代数函数
  • 超越函数
  • 二元函数
  • 数列
  • 导数
  • 偏导数
  • 微分
  • 积分
  • 优化入门
  • 概率入门
  • 统计入门
  • 向量
  • 鸡兔同笼

数据&资源

🔥 『interactive-coding-challenges』120+ Python交互技术面试题

github.com/donnemartin…

作者整理了 120 多道编程面试题,并为每道题目准备了一个或多个参考方案,重点覆盖了面试中常见的算法和数据结构。题目主题包括:

  • Arrays and Strings(数组和字符串
  • Linked Lists(链表
  • Stacks and Queues(堆栈和队列
  • Graphs and Trees(图和树
  • Sorting(排序
  • Recursion and Dynamic Programming(递归和动态规划
  • Mathematics and Probability(数学和概率
  • Bit Manipulation(位操作
  • Online Judges(线上解题系统
  • System Design(系统设计
  • Object Oriented Design(面向对象设计

研究&论文

公众号后台回复关键字 日报,免费获取整理好的论文合辑。

科研进展

  • 2022.10.13 『自监督学习』 On the Utility of Self-supervised Models for Prosody-related Tasks
  • 2022.10.11 『图像生成』 GENIE: Higher-Order Denoising Diffusion Solvers
  • 2022.10.06 『基于模型描述的搜索』 Content-Based Search for Deep Generative Models

⚡ 论文:On the Utility of Self-supervised Models for Prosody-related Tasks

论文时间:13 Oct 2022

领域任务:Prosody Prediction, Self-Supervised Learning,韵律预测自监督学习

论文地址arxiv.org/abs/2210.07…

代码实现github.com/jsalt-2022-…

论文作者:Guan-Ting Lin, Chi-Luen Feng, Wei-Ping Huang, Yuan Tseng, Tzu-Han Lin, Chen-An Li, Hung-Yi Lee, Nigel G. Ward

论文简介:We find that 13 of the 15 SSL models outperformed the baseline on all the prosody-related tasks.

论文摘要:来自语音数据的自监督学习 (SSL) 已经产生了在许多任务中取得显着性能的模型,并且已知这些模型隐含地表示了语音信号中潜在存在的信息的许多方面。然而,关于此类模型对韵律相关任务的适用性或它们编码韵律信息的程度知之甚少。我们提出了一个新的评估框架,SUPERB-prosody,由三个与韵律相关的下游任务和两个伪任务组成。我们发现 15 个 SSL 模型中有 13 个在所有与韵律相关的任务上都优于基线。我们还在两个伪任务上表现出良好的性能:韵律重建和未来韵律预测。我们进一步分析了 SSL 模型的分层贡献。总的来说,我们得出结论,SSL 语音模型对于韵律相关的任务非常有效。

⚡ 论文:GENIE: Higher-Order Denoising Diffusion Solvers

论文时间:11 Oct 2022

领域任务:Denoising, Image Generation,去噪图像生成

论文地址arxiv.org/abs/2210.05…

代码实现github.com/nv-tlabs/GE…

论文作者:Tim Dockhorn, Arash Vahdat, Karsten Kreis

论文简介:Synthesis amounts to solving a differential equation (DE) defined by the learnt model.

论文摘要:去噪扩散模型 (DDM) 已成为一类强大的生成模型。前向扩散过程会缓慢地扰动数据,而深度模型会学习逐渐去噪。合成相当于求解由学习模型定义的微分方程 (DE)。求解 DE 需要慢速迭代求解器以实现高质量生成。在这项工作中,我们提出了高阶去噪扩散求解器 (GENIE):基于截断的泰勒方法,我们推导出了一种新的高阶求解器,可以显着加速合成。我们的求解器依赖于扰动数据分布的高阶梯度,即高阶得分函数。在实践中,只需要雅可比向量积(JVP),我们建议通过自动微分从一阶评分网络中提取它们。然后,我们将 JVP 提炼成一个单独的神经网络,使我们能够在合成过程中为我们的新型采样器有效地计算必要的高阶项。我们只需要在一阶得分网络之上训练一个小的额外头部。我们在多个图像生成基准上验证 GENIE,并证明 GENIE 优于所有以前的求解器。与最近从根本上改变 DDM 生成过程的方法不同,我们的 GENIE 解决了真正的生成 DE,并且仍然支持编码和引导采样等应用。项目页面和代码:nv-tlabs.github.io/GENIE

⚡ 论文:Content-Bcased Search for Deep Generative Models

论文时间:6 Oct 2022

领域任务:Image and Sketch based Model Retrieval, Model Description Based Search, 基于图像和草图的模型检索基于模型描述的搜索

论文地址arxiv.org/abs/2210.03…

代码实现github.com/generative-…

论文作者:Daohan Lu, Sheng-Yu Wang, Nupur Kumari, Rohan Agarwal, David Bau, Jun-Yan Zhu

论文简介:The growing proliferation of pretrained generative models has made it infeasible for a user to be fully cognizant of every model in existence.

论文摘要:预训练生成模型的日益普及使得用户无法完全了解存在的每个模型。为了满足这一需求,我们引入了基于内容的模型搜索任务:给定一个查询和大量生成模型,找到与查询最匹配的模型。因为每个生成模型都会产生图像分布,所以我们将搜索问题表述为优化,以最大化在给定模型的情况下生成查询匹配的概率。当查询是图像、草图、文本描述、另一个生成模型或上述的组合时,我们开发近似值以使这个问题易于处理。我们在一组生成模型上对我们的方法的准确性和速度进行了基准测试。我们证明我们的模型搜索检索到适合图像编辑和重建、小样本迁移学习和潜在空间插值的模型。最后,我们将搜索算法部署到我们的在线生成模型共享平台 modelverse.cs.cmu.edu

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!

◉ 点击 日报合辑,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。

◉ 点击 电子月刊,快速浏览月度合辑。