AI资讯09-241.字节跳动首发布AI视频生成大模型 2.融合指南信息的聊天机器人可显著提升影像推荐准确性 3.美图奇

AI资讯09-24

新闻摘要

1.字节跳动首发布AI视频生成大模型

2.融合指南信息的聊天机器人可显著提升影像推荐准确性

3.美图奇想大模型视频生成能力升级

4.成都与科大讯飞深化人工智能合作

5.万兴科技加速布局音视频AI新机遇

6.最佳AI图像生成器

7.智能代理提高大型语言模型推理能力

8.未来聊天机器人将如何改变我们的日常生活

9.上海建工联合发布建筑业大模型Construction-GPTPRO版

10.约翰·塞纳的声线将应用于领先人工智能聊天机器人

11.火山引擎豆包大模型应用增长迅猛

12.Sam Altman与Jony Ive打造的AI项目并非手机

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

123

1.字节跳动首发布AI视频生成大模型

9月24日，字节跳动旗下火山引擎在深圳举办AI创新巡展，正式发布了豆包视频生成-PixelDance 和豆包视频生成-Seaweed两款大模型，面向企业市场开启邀测。

这些模型能够实现自然连贯的多拍动作与多主体复杂交互，甚至在不同运镜下保持人物样貌、服装细节甚至头饰一致。它基于DiT 架构，通过高效的DiT融合计算单元，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新的扩散模型训练方法更是攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。经过剪映、即梦AI等业务场景打磨和持续迭代，豆包视频生成模型具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。目前，新款豆包视频生成模型正在即梦AI内测版小范围测试，未来将逐步开放给所有用户。

2.融合指南信息的聊天机器人可显著提升影像推荐准确性

近期，研究人员利用美国放射学院影像指南的专业信息，对OpenAI的GPT-4进行精细化调整，使其能够提供与人类医疗专业人员一致的检查推荐。研究人员采用零样本学习方法，即在未经明确训练的情况下，通过利用通用知识和文本信息提示模型进行预测，从而提高了聊天机器人的可靠性。

该名为“正确性标准感知GPT”(accGPT)的聊天机器人，在将美国放射学院正确性标准应用于临床转诊意见方面，优于通用聊天机器人和普通放射科医生。通过将GPT-3.5-Turbo 与ACR指南知识整合，研究人员升级了聊天机器人到GPT-4，并开发了一种改进的提示策略，以测试该大型语言模型对基于临床病历的影像转诊提示应用ACR正确性指南的能力。

在根据ACR指南提供通常或可能适当的建议方面，上下文感知的聊天机器人在 GPT-3.5-Turbo 和 GPT-4 的通用版本中表现优异。其推荐的准确性始终如一，表明在影像转诊指南中可能存在未来的应用。另外，研究人员认为，结合聊天机器人提供的信息链接和参考，上下文调整可以提高用户对其输出的信任度，从而使诊断评估更加个性化，用户对聊天机器人建议的可靠性也更高。

3.美图奇想大模型视频生成能力升级

美图公司宣布其美图奇想大模型（MiracleVision）视频生成能力完成全面升级。升级后，该模型在生成能力、生成效率和模型性能方面都有显著提升。结合美图在计算机视觉领域的优势，升级后的模型在视频生成时长、画质、流畅性、真实性等方面都有明显提升。

美图奇想大模型目前支持单次文生视频和图生视频时长达五秒，能够生成一分钟长度、24FPS帧率、1080P分辨率的超长视频。美图奇想大模型于2023年6月份上线，并于2024年1月份通过国家备案，2024年6月份升级至V5版本。

4.成都与科大讯飞深化人工智能合作

9月24日，成都市人民政府和科大讯飞签署了战略合作协议，双方将着重推进人工智能领域的合作。

主要合作方向包括建设人工智能研发基地，共同打造讯飞星火大模型全国软件工程总部和四川AI产业加速中心，以及在人工智能与教育医疗等方面深化融合发展。成都市政府和科大讯飞还签署了投资合作协议，加速讯飞星火大模型全国软件工程总部暨讯飞生态产业中心的建设，打造人工智能产业新的发展动力。

5.万兴科技加速布局音视频AI新机遇

2024世界计算大会上，万兴科技副总裁朱雯雯表示，音视频产业正进入以大模型为载体的2.0时代。大模型正在改变内容生产的成本结构，小型工作室也能制作出高品质的视觉效果。

万兴科技提出“天幕”产品，针对短剧制作中存在的痛点，提供AI智能脚本、创意构思、文生空镜、智能配乐等能力，有效提高制作效率和视频质量。

数据显示，湖南音视频产业发展迅猛。万兴科技积极与中广天择、深圳卫视、African传媒巨头MultiChoice等合作，并在海外市场取得显著成绩。上半年，万兴科技海外收入占比超过91%，核心业务视频创意产品收入同比增长。

万兴科技持续加大研发投入，聚焦音视频智能技术应用，并计划通过股权回购等方式加强员工激励。

6.最佳AI图像生成器

近些年，人工智能（AI）在创意行业取得了显著进步，其中AI图像生成尤为引人注目。这项技术利用算法从简单的文字描述生成精美图像，受到了艺术家、营销人员和普通用户的广泛使用。

众所周知的AI图片生成器包括DALL·E 3、Midjourney、Jasper Art等。DALL·E 3被认为是目前市场上最先进的AI图像生成器，能够将详细的提示转化为逼真的或抽象的图像。Midjourney擅长艺术渲染，深受艺术家喜爱。Jasper Art则专注于生成博客文章、广告和社交媒体图片。

除了以上提到的，还有不少其他优秀的AI图片生成器可以满足用户的不同需求，比如:NightCafe、Artbreeder、Deep Dream Generator、Runway ML、Fotor、StarryAI、DeepAI等。

7.智能代理提高大型语言模型推理能力

在科技领域，大型语言模型（LLM）越来越流行，但其训练成本很高，需要大量资金和计算资源。针对这个问题，华盛顿大学的研究人员开发了一种名为“零样本代理引导”的智能代理，可以帮助大型语言模型更有效地进行推理。

该代理本身也是一个大型语言模型，它能够分析任务信息和示例，然后生成一套通用的步骤式指令。这些指令指导更小的语言模型完成任务，从而降低了推理的成本。研究人员在多种语言处理任务上测试了该方法，与传统的“零样本推理提示”方法相比，效果明显优异，特别是数学和逻辑推理领域。

该方法利用大型语言模型的强大能力，将其化繁为简，为小型模型提供清晰易懂的推理路径，提高了小型模型的推理能力。

8.未来聊天机器人将如何改变我们的日常生活

根据《财富》(Forbes)的报道，未来的聊天机器人将深刻影响我们的日常生活。这些更智能、更人性化的聊天机器人将不仅能处理简单的任务，还能理解复杂的请求，并提供更精准、更有价值的帮助。

例如，未来聊天机器人将能够帮助我们更有效率地处理办公任务，例如安排会议、撰写邮件和总结文件。在医疗领域，它们将协助医生诊断疾病、提供健康建议和跟踪患者病情。在教育领域，它们将能够作为个性化的辅导老师，根据学生的需求提供一对一指导和学习资源。

此外，聊天机器人还将在娱乐、购物和社交等领域发挥重要作用，丰富我们的生活体验。

随着人工智能技术的不断发展，聊天机器人将在未来几年变得越来越强大和普遍，深刻改变我们的日常生活方式。

9.上海建工联合发布建筑业大模型Construction-GPTPRO版

近期，上海建工四建集团与中国建筑出版传媒有限公司联合发布了 Construction-GPTPRO版大模型，并签署了战略合作协议。该大模型集施工规范、施工工艺、公式检索等八大核心模块，涵盖了70项细分功能，基于官方正版知识资源，具有强大的理解和生成能力。Construction-GPTPRO版支持高达8000字符的内容输出，响应速度达到毫秒级，准确率高达98%。

自Construction-GPTBeta版发布以来，该模型在上海建工四建集团内得到广泛应用，累计使用次数超过20万次，并成为建筑首个获得国家级算法备案的大模型产品。Construction-GPTPRO版相较于Beta版，在知识来源、回答内容长度、响应速度和准确性等方面都实现了显著提升。

此外, Construction-GPTPRO版还增加了多项实用功能，如详细的施工工艺数据库、精准的公式检索工具、专业的岗位知识库以及高效的管理资料库等。

10.约翰·塞纳的声线将应用于领先人工智能聊天机器人

脸书母公司Meta公司预计将在本周的 Connect 会议上宣布，其人工智能聊天机器人 Meta AI 将会添加来自克里斯汀·贝尔、Judi Dench、约翰·塞纳等知名演员的定制语音。

Meta AI 聊天机器人不仅可以提供这些明星的声音，还可以生成图像和进行与用户文本聊天。与 ChatGPT 和 Claude 等更强大的人工智能模型相比，Meta 在开发面向消费者的 AI 产品方面落后。尽管如此，Meta 仍然希望能通过引入明星声音和将其整合进自身庞大的平台来争夺部分人工智能市场份额。

11.火山引擎豆包大模型应用增长迅猛

字节跳动自研大模型“豆包”自发布以来，其日均Tokens使用量已超过1.3万亿，日均生成图片5000万张，日均处理语音85万小时。火山引擎总裁谭待表示，低价的大模型不再是阻碍创新。他认为，大的使用量才能打磨出好模型，并大幅降低模型推理的单位成本。火山引擎通过软硬件全栈优化，实现大模型的可持续低价。目前，“豆包”家族已覆盖多种大模型，包括文本、图像、语音等多模态能力。近期，“豆包”还发布了视频生成模型，并在企业市场开启邀测。谭待强调，未来大模型厂商要从卷价格走向卷性能，提供更强大的模型能力和服务，满足B端企业降本增效需求。

12.Sam Altman与Jony Ive打造的AI项目并非手机

据Axios报道，OpenAI首席执行官萨姆·阿尔特曼（Sam Altman）称，他与前苹果设计师乔尼·艾夫（Jony Ive）共同开发的AI项目并非智能手机。

阿尔特曼表示，这个项目旨在在一个新设备上运行AI，该设备将可能与一些现有的设备融合使用，但他拒绝透露更多细节。

这个项目目前处于早期阶段，详细信息尚未公开。而阿尔特曼的言论也让人对AI技术未来的发展方式有了新的思考。

关注「阿杰与AI」公众号

与AI时代更靠近一点

资讯汇总 ominiai.cn