2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

谷歌 AI 发布新的文本至图像 Transformer 模型 Muse

作者:Daniel Dominguez

  • 2023-02-13
    北京
  • 本文字数:786 字

    阅读完需:约 3 分钟

谷歌AI发布新的文本至图像Transformer模型Muse

谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成(Masked Generative)Transformer,可以生成与DALL-E 2Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。


Muse 被训练为预测随机掩码图像的 token,它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型,称为掩码生产transformer(masked generative transformer),以创造视觉效果,而不是采用像素空间扩散自回归模型。


谷歌声称,借助 TPUv4 芯片,可以在 0.5 秒内创建一个 256*256 的图像,而使用 Imagen 则需要 9.1 秒,根据谷歌的说法,Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU,即张量处理单元(Tensor Processing Unit),是谷歌开发的定制芯片,专门用作 AI 的加速器。


根据研究,谷歌 AI 已经训练了一系列不同规模的 Muse 模型,参数从 6.32 亿到 30 亿不等,研究发现,预先训练好的大型语言模型,对于生成逼真的高质量图像至关重要。


Muse 的性能也超过了最先进的自回归模型Parti,因为它使用了并行解码,在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根据使用同等硬件的测试,比 Stable Diffusion v1.4 快 3 倍。


Muse 创建的视觉效果与输入中的各种语义成分相对应,如名词、动词和形容词。此外,它还展示了视觉风格和多对象特性的知识,如合成性(compositionality)和基数(cardinality)。


近年来,由于新的训练方法和改进的深度学习架构,图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像,在广泛的行业和应用中,它们正在成为越来越强大的工具。


原文链接:

Google AI Unveils Muse, a New Text-To-Image Transformer Model


相关阅读:

OpenAI 宣布 DALL·E 开放测试版:面向 100 万用户,有文字就能生成图片

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

2023-02-13 08:005312

评论

发布
暂无评论
发现更多内容

潜入深蓝:SkyEye与中国深海探测技术共振

DevOps和数字孪生

图片组件|纯血鸿蒙组件库AUI

华哥的全栈次元舱

鸿蒙开发 鸿蒙app开发 AI极客 纯血鸿蒙组件库 免费的低代码平台

JAVA实现读取最后几行日志

电子尖叫食人鱼

Java

什么是链游,链游系统开发价格以及方案

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

揭秘区块链浏览器开发:从架构到落地的全链路指南

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

人工智能产品测试 | 模型:特征与权重的数据库

测试人

人工智能

再赴苍穹!神舟二十号发射取得圆满成功,开启中国航天新篇章

DevOps和数字孪生

航空航天

工作三年Java程序员的一点点体会与建议

Geek_Yin

Java 程序员 java面试 Java面试题

Java面试题及答案整理(金九银十突击版)

Geek_Yin

Java 程序员 java面试 Java面试题

音乐可视化编程 Cycling '74 Max for mac 9.0.7(含 RNBO)

Rose

企业即时通讯平台,助力企业数字化转型的即时通讯工具

BeeWorks

即时通讯 IM 私有化部署

Red Giant Universe for Mac(AE红巨星特效插件包)v2025.3.0激活版

Rose

HarmonyOS运动开发:精准估算室内运动的距离、速度与步幅

王二蛋和他的张大花

鸿蒙

0.2秒"神"同步!网易伏羲具身智能全栈方案发布,携手无论科技共拓人形机器人产业新蓝海

网易伏羲

人工智能 智能机器人 网易伏羲 具身智能 有灵众包

MCP Server 实践之旅第 3 站:MCP 协议亲和性的技术内幕

阿里巴巴云原生

阿里云 Serverless 云原生

BeeWorks:私有化即时通讯,筑牢企业信息安全防线

BeeWorks

即时通讯 IM 私有化部署

【拥抱鸿蒙】HarmonyOS NEXT实现双路预览并识别文字

郑知鱼

华为 鸿蒙 OCR 移动端开发 HarmonyOS NEXT

唐尼Downie 4.9.17 多语言版 macOS视频下载器

Rose

VMware Fusion 12许可密钥 VM虚拟机Mac版

Rose

低代码与传统开发大揭秘,教你快人一步

伤感汤姆布利柏

Experience Design中文激活版 for mac(XD界面设计和原型交互工具)

Rose

基于YOLOv8的坐姿标准姿态检测项目【完整源码数据集+PyQt5界面+完整训练流程+开箱即用!】

申公豹

yolo

Topaz ReMask 5 for Mac/win(ps抠图滤镜) 汉化激活版

Rose

2025 StartDT Day 发布会全回顾

奇点云

AI

区块链交易所开发:开启数字货币交易新时代

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 公链开发 代币开发

Redis持久化机制

量贩潮汐·WholesaleTide

redis

从概念表达到安全验证:智能驾驶功能迎来系统性规范

DevOps和数字孪生

智能驾驶

AtomGit MCP 服务正式上架

开放原子开源基金会

Permute 3.13.1 :轻松将您的媒体文件转换为各种不同的格式

Rose

VNC Server for Mac(VNC远程控制软件) v6.11.0激活版

Rose

DeepSeek-R1-0528正式上线网心科技算力云平台

网心科技

谷歌AI发布新的文本至图像Transformer模型Muse_AI&大模型_InfoQ精选文章