世界热头条丨Google AI 推出 MediaPipe Diffusion 插件：可在设备上实现可控的文本到图像生成

(资料图片仅供参考)

编程客栈() 7月3日消息:Diffusion 模型近年来在文本到图像生成方面得到广泛应用，并取得了显著的成功，从而在图像质量、推理性能和创造性范围方面实现了重大改进。然而，在难以用文字明确定义的条件下，有效的生成管理仍然是一个挑战。

由谷歌研究人员开发的 MediaPipe Diffusion 插件使得用户可以在设备上执行文本到图像的生成，并进行用户控制。在这项研究中，谷歌延伸了之前关于设备上大型生成模型的 GPU 推理的工作，提出了低成本的可编程文本到图像创建解决方案，可以集成到现有的 Diffusion 模型及其 LoRA 变体中。

Diffusion 模型中模拟了迭代去噪的图像生成过程。Diffusion 模型的每一BNgCHBucf次迭代都以受噪声污染的图像开javascript始，并以目标概念的图像结束。通过文本提示的语言理解极大地增强了图像生成过程。文本嵌入通过交叉注意力层与文本到图像生成模型关联起来。然而，物体的位置和姿态等细节可能更难以通过文本提示传达。研究人员通过额外的模型将条件图像中的控制信息引入到 Diffusion 中。

Plug-and-Play、ControlNet 和 T2I Adapter 方法经常用于生成受控的文本到图像输出。Plug-and-Play 使用 Diffusion 模型的副本（Stable Diffusion1.5 版本的 860M 参数）和广泛使用的去噪 Diffusion 隐式模型（DDIM）反演方法BNgCHBucf来从输入图像中推导出初始噪声输入。

通过自注意力从复制的 Diffusion 中提取空间特征，并使用 Plug-and-Play 将其注入到文本到图像 Diffusion 中。ControlNet 构建了 Diffusion 模型编码器的可训练副本，并通过一个带有零初始化参数的卷积层连接到编码条件信息，然后传递给解码器层。不幸的是，这导致了模型的显著增大，Stable Diffusion1.5 版本的参数约为 4.5 亿个，相当于 Diffusion 模型本身的一半。T2I Adapter 在较小的网络（77M 参数）下实现了可比较的受控生成结果。条件图像是 T2I Adapter 的唯一输入，其结果被用于所有后续的 Diffusion 周期。然而，这种适配器样式不适用于移动设备。

MediaPipe Diffusion 插件是谷歌开发的一个独立网络，旨在使条件生成变得高效、灵活和可扩展。

作为一种便携式的设备上文本到图像创建范式，MediaPipe Diffusion 插件可以免费下载使用。它接收一个条件图像，并通过多尺度特征提取将特征添加到 Diffusion 模型的编码器中的适当尺度上。

当与文本到图像 Diffusion 模型结合使用python时，插件模型将一个条件信号添加到图像生成过程中。谷歌希望插件网络只有 600 万个参数，使其成为一个相对简单的模型。

MediaPipepython：https://developers.google.com/mediapipe

关键词：

世界热头条丨Google AI 推出 MediaPipe Diffusion 插件：可在设备上实现可控的文本到图像生成

教育 23-07-03
每日简讯：三星Z Fold5跑分曝光搭载骁龙8 Gen2

安全 23-07-03
标准股份：截至2023年6月30日，公司股东人数约为2.09万户

综艺 23-07-03
谭雅玲：下调美元存款利率是防御美联储继续加息，不建议做跨币种投资

存储 23-07-03

爱德利（870997）：股东解除限售股票156.99万股|环球今日报

资讯 23-07-03
天天速读：3名未成年人逼1名未成年人吃粪便？山西介休通报：警方已立案

明星 23-07-03
惠城环保：第二季度“惠城转债”转股约207万股

存储 23-07-03
环保因素致部分烧结机停产块矿需求有支撑-快播

综艺 23-07-03

当前热门：在高规格大会“首映”后，辽宁8万多名党员干部已看这部警示片，市委书记、市长、厅长写观后感

安全 23-07-03
7月3至4日预计渠江干流将再次出现明显涨水过程_世界新视野

教育 23-07-03
南昌—新加坡航班8月2日正式开通|焦点热文

资讯 23-07-03
节日祝福丨北京南平企业商会恭祝大家端午安康！|当前动态

明星 23-07-03

消息！商丘工学院教育与现代艺术学院2022级学前教育专业召开暑期安全教育主题班会

教育 23-07-03
常德高新区创新突破产业突围——干部综合能力提升专题培训班结业

安全 23-07-03
厦门建发包揽佛山南海大沥河西2宗望江商住地总地价35.94亿元

存储 23-07-03
菱动（菱动激光

综艺 23-07-03

全球速看：媒体人：许利民提拔人才郑薇继续打磨两人都是中国女篮的好教练

资讯 23-07-03
进击的巨人第二季_半面人第二季|焦点快报

明星 23-07-03
上海人的这个“高素质”习惯竟然是错误的！每天都有人犯错，一定要注意-全球快看

安全 23-07-03
实时焦点：兖矿能源(01171)拟于8月4日派末期息每股3.3366港元

综艺 23-07-03

世界热头条丨Google AI 推出 MediaPipe Diffusion 插件：可在设备上实现可控的文本到图像生成

阅读排行

精彩推送