AI日报|谷歌Bard更新,支持中文了;综述:大型语言模型评估;印度公司解雇90_员工,AI接手后成本降幅约85%

236 阅读8分钟

今日值得关注的人工智能新动态:

  • 谷歌Bard更新,支持中文了

  • 知情消息:Hugging Face 正在筹集至少2亿美元D轮融资

  • AI 使用争议引发美国演员罢工,再也看不了好莱坞了?

  • OpenAI面临监管风暴:FTC调查揭开ChatGPT的虚假信息漩涡

  • 印度公司解雇90%员工,AI接手后成本降幅约85%

  • 美联社与OpenAI达成新闻共享和技术交易协议

  • HyperDreamBooth:用于文本到图像模型快速个性化的超网络

  • 微软ICAE:用于大型语言模型中上下文压缩的自动编码器

  • DRAGON:基于视觉语言基础的辅助导航对话机器人

  • AI21 Labs提出FACTOR:生成语言模型事实性评估方法

  • DecompEval:将生成的文本评估为无监督分解问答

  • 综述:大型语言模型评估

  • Text2Cinemagraph:从文本合成艺术化的动态照片

01

谷歌Bard更新,支持中文了

近日,谷歌发布了 Bard 新版本。此次更新增加了 40 多种语言,除了中文外,还包括阿拉伯语、德语、印地语和西班牙语等。另外,Bard 新增了语音支持,Bard 可以用语音播放回答,该功能现已支持 40 多种语言。用户还可以更改 Bard 回答的语气和风格,包括简单、长、短、专业和休闲。

image.png

02

知情消息:Hugging Face正在筹集至少2亿美元的D轮融资

据《福布斯》消息,Hugging Face 正在审查 D 轮融资的竞争条款清单,此轮融资预计将筹集至少 2 亿美元。目前,Hugging Face 的估值为 40 亿美元,将一跃成为该类别中估值最高的公司之一,与 Inflection AI 相当,仅次于 Anthropic,据报道其估值已接近 50 亿美元。

image (1).png

03

AI使用争议引发美国演员罢工,再也看不了好莱坞了?

美国演员工会和广播电视艺人联合工会(SAG-AFTRA)宣布,与代表影视制片公司利益的电影和电视制片人联盟(AMPTP)未能达成新协议,确定罢工。双方矛盾集中在演员的后期收益、 AI 的使用等方面。比如,工会方透露制片人方提出的 AI 使用方案甚至包括“他们可以扫描演员的脸,支付演员们一天的工作报酬,然后他们可以在后续继续使用演员的脸和肖像而不支付报酬和获得允许”。

图片

04

OpenAI面临监管风暴:FTC调查揭开ChatGPT的虚假信息漩涡

OpenAI 受到美国联邦贸易委员会(FTC)的调查,该调查旨在审查 OpenAI 旗下的聊天机器人ChatGPT 是否发布虚假信息,是否对相关个人造成了伤害,以及 OpenAI 如何处理相关风险。这次 FTC 的调查标志着美国监管机构首次正式对 AI 聊天机器人的风险展开调查。ChatGPT 作为当前全球最热门的应用程序,面临潜在的法律威胁。

图片

05

印度公司解雇90%员工,AI接手后成本降幅约85%

最近,一家印度初创软件开发商面临客户支持团队费用过高的问题,因此决定解雇了技术支持团队的 90% 员工,并将其外包给一款更高效、更经济的 AI 聊天机器人。这个机器人的开发商名为 Dukaan,提供了一个快速部署在线商店的平台。初创公司的创始人 Suumit Shah 在 Twitter 上透露,这一变化缩短了问题解决时间,同时总体客户支持成本下降了约 85% 。

06

美联社与OpenAI达成新闻共享和技术交易协议

美联社周四表示,其与 OpenAI 达成了一项为期两年的协议,双方将共享部分新闻内容和技术。该协议标志着美国主要新闻公司与 AI 公司之间达成的首批官方新闻共享协议之一。作为协议的一部分,OpenAI 将可以使用美联社 1985 年以来的部分文本档案,以帮助训练其 AI 算法。作为回报,美联社将获得 OpenAI 的技术和产品专业知识。

07

HyperDreamBooth:用于文本到图像模型快速个性化的超网络

为克服个性化过程在时间和内存需求方面的挑战,Google Research 提出了一种能够从一个人的单张图片中高效生成一小组个性化权重的超网络——HyperDreamBooth。通过将这些权重组合到扩散模型中,并结合快速微调,HyperDreamBooth 可以在各种环境和风格中生成一个人的面部,具有高度的主体细节,同时保留模型对不同风格和语义修改的关键知识。该方法在大约 20 秒内实现了面部个性化,仅使用一张参考图片,具有与 DreamBooth 相同的质量和风格多样性。此外,该方法生成的模型比普通 DreamBooth 模型小 10000 倍。

image (4).png

论文链接:

arxiv.org/abs/2307.06…

项目地址:

hyperdreambooth.github.io/

08

微软ICAE:用于大型语言模型中上下文压缩的自动编码器

近日,微软研究人员提出了自动编码器 In-context Autoencoder(ICAE),用于大型语言模型(LLM)中的上下文压缩。ICAE 包括两个模块:可学习的编码器和固定的解码器。实验结果表明,通过预训练和微调范式学习的 ICAE 能够有效地生成具有 4 倍大小压缩比的存储槽。

image (5).png

论文链接:

arxiv.org/abs/2307.06…

09

DRAGON:基于视觉语言基础的辅助导航对话机器人

近日,伊利诺伊大学厄巴纳-香槟分校的研究人员提出了一种由对话系统驱动的引导机器人—— DRAGON,该机器人能够将环境与自然语言联系起来。通过理解用户的命令,DRAGON 能够引导用户到达地图上的地标、描述环境并回答视觉观察的问题。通过有效利用对话,机器人可以将用户的描述转化为环境中的地标,并通过口语向用户提供语义信息。研究结果表明,DRAGON 能够与用户顺畅地沟通,提供良好的引导体验,并以直观的方式将用户与周围环境联系起来。

图片

论文链接:

arxiv.org/abs/2307.06…

项目地址:

sites.google.com/view/dragon…

10

AI21 Labs提出FACTOR:生成语言模型事实性评估方法

近日,AI21 Labs 提出了一种可扩展语言模型的事实性评估方法——FACTOR ,即通过语料库转换进行事实评估。FACTOR 自动将感兴趣的事实语料库转化为一个评估基准,用于评估语言模型生成来自语料库的真实事实和类似但不正确的陈述的倾向。研究结果表明,基准分数随着模型规模的增加而提高,并且当语言模型与检索进行增强时,基准分数也会改善;基准分数与困惑度相关,但这两个度量标准在模型排名上并不总是一致;当困惑度和基准分数不一致时,后者更能准确反映开放式生成中的事实性,这是通过人工注释员的评估所得出的结论。

论文链接:

arxiv.org/abs/2307.06…

11

DecompEval:将生成的文本评估为无监督分解问答

为应对自然语言生成(NLG)任务评估指标在泛化能力和可解释性方面面临的挑战,清华大学交互式 AI 课题组和华为诺亚方舟实验室共同提出了一种简单而有效的指标——DecompEval。该指标将 NLG 评估形式化为一项基于指令的问答任务,并利用经过指令微调的预训练语言模型(PLM)而无需在评估数据集上进行训练,从而增强泛化能力。实验结果表明,DecompEval 在评估文本摘要和对话生成的未训练指标方面取得了最先进的性能,同时展示了强大的维度级/任务级泛化能力和可解释性。

image (7).png

论文链接:

arxiv.org/abs/2307.06…

12

综述:大型语言模型评估

随着大语言模型(LLMs)在研究和日常使用中不断发挥重要作用,为了更好地了解它们的潜在风险,对它们的评估变得越来越重要,该研究从“评价什么”“在哪里评价”和“如何评价”三个关键维度对 LLMs 评价方法进行了全面回顾。

首先,该研究从评价任务的角度进行概述,包括一般的自然语言处理任务、推理、医学应用、伦理、教育、自然科学和社会科学、代理应用等领域;其次,该研究通过深入研究评估方法和基准来回答“在哪里”和“如何”的问题,这些方法和基准是评估 LLMs 性能的关键组成部分;然后,该研究总结了 LLMs 在不同任务中的成功和失败案例;最后,该研究揭示了 LLMs 评估未来面临的几个挑战。

image (8).png

论文链接:

arxiv.org/abs/2307.03…

GitHub 地址:

github.com/MLGroupJLU/…

13

Text2Cinemagraph:从文本合成艺术化的动态照片

该研究提出了一种从文本描述中创建动态照片的全自动方法——Text2Cinemagraph。借助现有的自然图像和视频数据集,该方法可以准确地分割现实图像,并根据语义信息预测出合理的动作,然后将预测的运动转移到艺术图像上,从而创建最终的动态照片。

图片

论文链接:

arxiv.org/abs/2307.03…

项目地址:

text2cinemagraph.github.io/website/