谷歌AI发布新的文本至图像Transformer模型Muse_AI&大模型_InfoQ精选文章

2025上半年，最新 AI实践都在这！20+ 应用案例，任听一场议题就值回票价了解详情 



 写点什么

登录/注册

谷歌AI发布新的文本至图像Transformer模型Muse

谷歌AI发布了一篇关于Muse的研究论文，这是一种新的文本至图像生成技术，它基于掩码生成（Masked Generative）Transformer，可以生成与DALL-E 2和Imagen等竞争对手相媲美的高质量图片，但是速度要快得多。

Muse 被训练为预测随机掩码图像的 token，它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型，称为掩码生产transformer（masked generative transformer），以创造视觉效果，而不是采用像素空间扩散或自回归模型。

谷歌声称，借助 TPUv4 芯片，可以在 0.5 秒内创建一个 256*256 的图像，而使用 Imagen 则需要 9.1 秒，根据谷歌的说法，Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU，即张量处理单元（Tensor Processing Unit），是谷歌开发的定制芯片，专门用作 AI 的加速器。

根据研究，谷歌 AI 已经训练了一系列不同规模的 Muse 模型，参数从 6.32 亿到 30 亿不等，研究发现，预先训练好的大型语言模型，对于生成逼真的高质量图像至关重要。

Muse 的性能也超过了最先进的自回归模型Parti，因为它使用了并行解码，在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上，根据使用同等硬件的测试，比 Stable Diffusion v1.4 快 3 倍。

Muse 创建的视觉效果与输入中的各种语义成分相对应，如名词、动词和形容词。此外，它还展示了视觉风格和多对象特性的知识，如合成性（compositionality）和基数（cardinality）。

近年来，由于新的训练方法和改进的深度学习架构，图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像，在广泛的行业和应用中，它们正在成为越来越强大的工具。

原文链接：

Google AI Unveils Muse, a New Text-To-Image Transformer Model

相关阅读：

OpenAI 宣布 DALL·E 开放测试版：面向 100 万用户，有文字就能生成图片

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

评论

发布

暂无评论

潜入深蓝：SkyEye与中国深海探测技术共振

DevOps和数字孪生

图片组件|纯血鸿蒙组件库AUI

华哥的全栈次元舱

鸿蒙开发鸿蒙app开发 AI极客纯血鸿蒙组件库免费的低代码平台

JAVA实现读取最后几行日志

电子尖叫食人鱼

什么是链游,链游系统开发价格以及方案

区块链软件开发推广运营

交易所开发 dapp开发链游开发公链开发代币开发

揭秘区块链浏览器开发：从架构到落地的全链路指南

区块链软件开发推广运营

交易所开发 dapp开发链游开发公链开发代币开发

人工智能产品测试 | 模型：特征与权重的数据库

再赴苍穹！神舟二十号发射取得圆满成功，开启中国航天新篇章

DevOps和数字孪生

工作三年Java程序员的一点点体会与建议

Java 程序员 java面试 Java面试题

Java面试题及答案整理（金九银十突击版）

Java 程序员 java面试 Java面试题

音乐可视化编程 Cycling '74 Max for mac 9.0.7（含 RNBO）

企业即时通讯平台，助力企业数字化转型的即时通讯工具

即时通讯 IM 私有化部署

Red Giant Universe for Mac(AE红巨星特效插件包)v2025.3.0激活版

HarmonyOS运动开发：精准估算室内运动的距离、速度与步幅

王二蛋和他的张大花

0.2秒"神"同步!网易伏羲具身智能全栈方案发布,携手无论科技共拓人形机器人产业新蓝海

人工智能智能机器人网易伏羲具身智能有灵众包

MCP Server 实践之旅第 3 站：MCP 协议亲和性的技术内幕

阿里巴巴云原生

阿里云 Serverless 云原生

BeeWorks：私有化即时通讯，筑牢企业信息安全防线

即时通讯 IM 私有化部署

【拥抱鸿蒙】HarmonyOS NEXT实现双路预览并识别文字

华为鸿蒙 OCR 移动端开发 HarmonyOS NEXT

唐尼Downie 4.9.17 多语言版 macOS视频下载器

VMware Fusion 12许可密钥 VM虚拟机Mac版

低代码与传统开发大揭秘，教你快人一步

伤感汤姆布利柏

Experience Design中文激活版 for mac(XD界面设计和原型交互工具)

基于YOLOv8的坐姿标准姿态检测项目【完整源码数据集+PyQt5界面+完整训练流程+开箱即用！】

Topaz ReMask 5 for Mac/win(ps抠图滤镜) 汉化激活版

2025 StartDT Day 发布会全回顾

区块链交易所开发:开启数字货币交易新时代

区块链软件开发推广运营

交易所开发 dapp开发区块链开发公链开发代币开发

Redis持久化机制

量贩潮汐·WholesaleTide

从概念表达到安全验证：智能驾驶功能迎来系统性规范

DevOps和数字孪生

AtomGit MCP 服务正式上架

开放原子开源基金会

Permute 3.13.1 ：轻松将您的媒体文件转换为各种不同的格式

VNC Server for Mac(VNC远程控制软件) v6.11.0激活版

DeepSeek-R1-0528正式上线网心科技算力云平台