发问:底下这张图开云kaiyun,是AI生图如故相片?
淌若不是这样问,绝大大量东说念主偶而齐不会思到,这尽然不是一张相片。
是的,只有在谷歌最新AI生图神器Imagen 2中输入这样的指示词——
A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile
一位32岁的年青女性自然保护目标者,正在森林中探险。她身段健壮,一头短鬈发,面带亲切的含笑
就能得到来源那张无比传神写实、比相片还像相片的图像了!
自然圣诞节一经摆布,但谷歌还在卷个束缚——堪称DALL·E 3最强竞品的文生图模子Imagen 2,终于重磅上线了。
刚用Gemini和OpenAI卷完GPT-4,立马又放出Imagen 2来卷DALL·E 3了,2023年底的「卷王」名称,谷歌是实至名归。
不仅手指传神,而且拿筷子的姿势也很轨范
可以说,Imagen 2是咫尺文本转图像时间的巅峰之作,一经冲突了AI生图的界限。
在机器学习算法渊博功能的加持下,Imagen 2可以将文本模样转化为生动显著的高差别率图像。
Imagen 2最卓尔不群之处在于,它能够以惊东说念主的准确性,和解复杂概括的成见,然后把这个成见可视化,紧密之进度令东说念主惊奇!
Imagen 2的中枢,如故复杂的神经收罗架构。经由微调的Transformer模子,在文本和解和图像合成上,齐进展出了无与伦比的性能。
当今,在文生图范围,谷歌又树立了新的标杆。
用自然谈话就能生图的模子,又多了一个当今,除了DALL·E 3以外,咱们又有了一个仅凭自然谈话就能生图的模子!
相比之下,Midjourney必须用复杂、专科的指示词,在易使用性上一经被两位竞争者甩出了很远。
仅凭肤浅文本,就能生涯万般化的复杂图像,这类AI生图模子关于骨子创作的影响是极其深入的。
关于依赖视觉骨子的行业来说,这透澈改革了游戏章程,大大减少了传统骨子制作所需的时辰,骨子创作者可以昔日所未有的速率,制作高质料的视觉效能。
同期,Imagen 2还具有无可比较的图像质料和多功能性。
Imagen 2用到了谷歌起程点进的文本到图像扩散时间,生图质料极高、效能传神,而且和用户的指示具有高度的一致性。
原因在于,它是使用考试数据的自然分散来生成更传神的图像,而非聘用事先编程的形势。
A jellyfish on a dark blue background 水母在深蓝色的配景下称心飘浮
可以看到,Imagen 2的图像生成能力尽头惊东说念主。
岂论是渲染骇人闻听的场所、认真的物体,如故魔幻的场景,生成的图像齐具有如斯高的保真度,以至于它们可以与东说念主类艺术家创作的图像相比好意思,以至平直超过。
Small canvas oil painting of an orange on a chopping board. Light is passing throughorange segments, casting an orange light across part of the chopping board. There is a blueand white cloth in the background. Caustics, bounce light, expressive brush strokes
一小幅油画,模样了摆放在砧板上的橙子。阳光穿过橙子的切片,柔软的橙色光辉洒在砧板上。画的配景是一块蓝白相间的布,画面巧妙地捕捉了光的折射、反射效能,同期展示了画家富足心情的笔触
有网友示意,看到Imagen的这张橙子图,确凿让我大吃一惊。灯光穿过橙子后的投影,和指示中模样的境界尽头吻合!
有东说念主用相似的指示,让DALL·E 3生成了相似的橙子油绘制,效能比起Imagen 3来说,确实弱了不少。
肖似的,Midjourney生成的橙子,在信得过感和境界层面,也要差上一截。
诗中境界,一键传神收复以往的「文本到图像」模子,频繁是字据考试数据集的图像和标题中的认真信息,来生成与用户指示匹配的图像的。
可是它们有一个bug:关于每张图像和配对的标题,在细节质料和准确性上可能会有很大各别。
为了匡助创建更高质料和更准确的图像、更好地合适用户的指示,Imagen 2的考试数据连合添加了更多模样,匡助Imagen 2学习不同的标题作风,并更好地和解平淡的用户指示。
这种图像标题配对,就有助于Imagen 2更好地和解图像和笔墨之间的相关,大大提高了它对险阻文和轻朦拢别的和解。
就比如,好意思国作者Phillis Wheatley《晚间赞扬诗》中的一句话「溪流潺潺,鸟儿啁啾,空中飘摇着它们羼杂的音乐」。
诗中绝好意思的境界,Imagen 2把重点全收拢了。
"Soft purl the streams, the birds renew their notes, And through the air their mingledmusic floats." (A Hymn to the Evening by Phillis Wheatley)
相比之下,Midjourney似乎关于体裁模样的骨子主持如故欠缺一些,偶而率会在图中自动添加一个东说念主物。不外举座画面效能如故可以的。
而到了DALL·E 3这里,它尽然在图像上加了几行字,生成了一张「贺卡」?
在驰名的演义《白鲸记》中,Herman Melville曾写下「思象一下大海的诡秘之处,最可怕的处所在于生物如安在水下滑行,却在大大量情况下不易察觉,况兼诡谲地荫藏在最可儿的湛蓝色彩下」。
Imagen 2亦然很懂「海洋体裁」的特色。
"Consider the subtleness of the sea, how its most dreaded creatures glide underwater, unapparent for the most part, and treacherously hidden beneath the loveliest tints ofazure." (Moby-Dick by Herman Melville)
相比之下,Midjourney和DALL·E 3一到深海,就霎时就克苏鲁了起来……
Midjourney
DALL·E 3
儿童体裁寰球Frances Hodgson Burnett所著的《玄机花圃》中,对知更鸟有这样一句模样:
知更鸟从缠绕的常春藤上飞到墙头,伸开嘴巴,唱出了一个响亮而甜好意思的颤音,仅仅为了自大我方。天下上就莫得什么东西能比它更惹东说念主敬爱了——它们险些老是这样作念。
快看,Imagen 2生成的这幅画,把常春藤、墙头、唱歌等潜伏的细节,系数呈现了出来。
"The robin flew from his swinging spray of ivy on to the top of the wall and he openedhis beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite asadorably lovely as a robin when he shows off - and they are nearly always doing it." (TheSecret Garden by Frances Hodgson Burnett)
相似的指示词,Midjourney在信得过感上还要差上几分。
而DALL·E 3相比上头两家,就更忘形了,尤其在植物和羽毛的细节上。
作风复刻,豪迈变换,更懂东说念主类好意思学一直以来,图像生成饱受诟病的问题之一,就是东说念主物的手指生成。
此次,Imagen 2的数据集和模子越过,在好多范围赢得了改进。
其中就包括渲染传神的手部和东说念主脸,以及保持图像不受打扰的视觉伪影。
同期,谷歌DeepMind字据东说念主类对光辉、取景、曝光、显著度等特质的偏好,考试了一个挑升的「图像好意思学模子」。
每张图像齐被予以一个好意思学分数,这有助于调治Imagen 2在其考试数据连合赋予东说念主类偏好的图像更多的权重。
这样一来,就提高了Imagen 2生成更高质料图像的能力。
使用指示「花」的AI生成的图像,好意思学分数从低(左)到高(右)
Imagen 2的扩散时间提供了高度的纯真性,使得更容易规定和诊疗图像的作风。
通过提供参考作风图像并伙同文本指示,可以考试Imagen 2生成死守疏通作风的新图像。
通过使用参考图像和文本指示,Imagen 2可以更松开地规定输出形势
更强的「耕作」和「扩图」此外,Imagen 2还搭救图像编订功能,如「耕作」(inpainting)和「扩图」(outpainting)。
通过提供参考图像和图像掩码,咱们可以用inpainting时间平直在原始图像中生成新骨子。
不才面这幅原始图中,只有输入「绿色墙上有一个架子,架子上放着几本书和花瓶」,对应骨子就在原图中生成了!
新骨子绝不突兀,完好融入原图,自然浑成。
另外,咱们还可以使用outpainting功能,给原始图像扩图。
夕阳下非洲大草原上长颈鹿和斑马的双东说念主大头贴,一下子就扩成了全身照。
全面加持企业级场景,logo案牍一键生成,汉文也搭救当今,谷歌一经Imagen 2下放到开辟者平台Vertex AI。
在Vertex AI平台上,客户可以使用直不雅的器具来自界说和部署Imagen 2,享受全面处分的基础才能和内置的心事与安全保护。
在谷歌DeepMind的时间加持下,Imagen 2在图像质料上收场了显贵进步,匡助开辟者字据特定需求创造图像,其中包括:
- 字据自然谈话的指示生成高质料、传神、高差别率且考究的图像;
- 搭救多谈话文本渲染,能够在图像中准确添加文本骨子;
- 可以联想公司或产物的Logo,并将其镶嵌到图像中;
- 提供视觉问题解答功能,可以从图像中生成标注,或就图像细节提议的问题给出具有信息性的文本回应。
高质料图像:借助于改进的图像和文本和解,以及多种创新的考试和建模时间,Imagen 2能够生成精确、高品性且传神的图像。
文本渲染搭救:可以字据指示骨子,精确地渲染出正确的文本。
Imagen 2可以在生成含有特定笔墨或短语的物体图像时,确保输出图像中包含正确短语。
Logo联想:Imagen 2能为品牌、产物等生成多种创意和传神的Logo,比如徽章、字母以至尽头概括的Logo。
标注和问答:讹诈增强的图像和解能力,Imagen 2能够创建认真的长文标注,并对图像内元素提议的问题给出认真谜底。
多谈话指示:除了英语,Imagen 2还搭救其他6种谈话(汉文、印地语、日语、韩语、葡萄牙语、西班牙语),并联想在2024岁首加多更多谈话。这项功能还包括指示与输出之间的翻译能力,比如,可以用西班牙语指示,但指定输出为葡萄牙语。
图像加水印,生成更安全为了匡助裁减文本到图像生成时间的潜在风险和挑战,谷歌从联想和开辟到产物部署齐树立了渊博的护栏。
Imagen 2 集成了SynthID——用于加水印和识别 AI 生成骨子的顶端器具包。
这样,Google Cloud平台的客户可以平直在图像中添加数字水印,同期不会裁减图像质料。
不外,即使在对图像进行过滤、剪辑或使用有损压缩决议保存后,SynthID仍然可以检测出。
除此以外,在向统统效户推出之前,谷歌会进行渊博的安全测试,以最大规定地裁减伤害风险。
从一启动,谷歌团队就进入对Imagen 2的数据安全考试,并添加了时间护栏来扬弃有问题的输出,如暴力、冒犯或色情骨子。
同期,谷歌还对考试数据、输入指示和系统生成的输出进行安全查验。比如正在应用全面的安全过滤器,以幸免生成名东说念主图像等有潜在问题的骨子。
网友惊呼:真·最强文生图模子来了!Google DeepMind盘考副总裁兼深度学习专揽Oriol Vinyals尝试用Imagen 2为Gemini生成徽标。
另一位谷歌科学家用Imagen 2生成的图像如下。
底下是一只网友实测生成的蓝猫。
有网友以为,Imagen 2是同类产物中最佳的。就像Gemini Ultra一样,看手和笔墨就宽裕了。
不外,他还吐槽了谷歌不向统统东说念主绽开产物的问题。
「像往常一样,谷歌通告了一款大大量东说念主无法使用的产物,这有什么兴致?!」
参考贵寓:https://deepmind.google/technologies/imagen-2/ https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available
本文来源:新智元,原文标题:《谷歌文生图巅峰之作Imagen 2登场开云kaiyun,实测暴打DALL·E 3和Midjourney!》
风险指示及免责要求 市集有风险,投资需严慎。本文不组成个东说念主投资建议,也未议论到个别用户颠倒的投资方针、财务气象或需要。用户应试虑本文中的任何意见、不雅点或论断是否合适其特定气象。据此投资,包袱知足。