本文作者:访客

变身“神笔马良”,国产AI只需要15秒

访客 2024-09-04 19:11:02 18381 抢沙发
变身“神笔马良”,国产AI只需要15秒摘要: 出品|虎嗅科技组作者|余杨编辑|苗正卿头图|视觉中国8 月 29 日, Midjourney 宣布将涉足硬件领域,并在社交媒体 X 上发布消息广揽人才,来充实其新成立的硬件部门。A...

出品|虎嗅科技组

作者|余杨

变身“神笔马良”,国产AI只需要15秒

编辑|苗正卿

头图|视觉中国

8 月 29 日, Midjourney 宣布将涉足硬件领域,并在社交媒体 X 上发布消息广揽人才,来充实其新成立的硬件部门。

AI 绘画似乎要卷出新形态。

这并不奇怪。Midjourney 创始人 David Holz 曾任 Leap Motion 的首席技术官,具备丰富的硬件经验。他的前同事——现为 Midjourney 硬件部门负责人—— Ahmad Abbas 也曾在苹果公司工作过五年,担任硬件经理,参与了 Vision Pro 头显的研发。

在此之前,我曾问过一众美术、设计相关专业的从业者,Midjourney 对 ta 们来说意味着什么。得到最多的答案是:灵感。

而对非艺术专业的,比如我,或是为了配插图,或是出于好奇,抽卡自娱,也弥补弥补应试教育那些年没能开发自己艺术细菌的遗憾。

但由于 Midjourney 的使用有一定的门槛(比如魔法,比如一些些米),也劝退了不少人。

好在,随着 AI 产品的国产化,国内大模型的 AI 绘画也成长了起来。那么今天,我们就来横向测评几个国产文生图的 AI 模型,并静候 AI 绘画的新形态。

今天参与测评的玩家有:快手可灵 AI、字节即梦 AI、商汤秒画。

为了更好地揭示各家大模型的所长,测评的系列则混合人像、绘画、写实、3D、再创作等几个方面。

考虑到方便对比,接下来即以系列主题为纲,所生成的条目按可灵、即梦、秒画的顺序排列,图像比例都设置为 1:1,其他参数默认。

最后,结合操作过程中的使用体验和特点给出总评,着急的朋友可以直接下拉到操作体验和总评环节。

人像

1. 摄影,中景,穿着传统汉服的中国女性,手持折扇,优雅含笑,在古典园林中漫步。

2. 特写,夜景,时尚芭莎杂志,金发碧眼的欧洲女孩,黑色夹克,酷辣风格,站在巴黎埃菲尔铁塔前,手里有一杯咖啡。

从人像模块可以看到,第 1 个 prompt 里,我的命令是手持折扇,即梦给了我一个团扇;

第 2 个 prompt 里,三家似乎都没有 get 到我金发碧眼的命令,生成的图片都是蓝瞳。

绘画

1. 中国水墨画," 孤舟蓑笠翁,独钓寒江雪 ",意境悠远,云雾缭绕。

2. 人物脸部速写,铅笔画,中年男子,穿着宇航服,有着爱因斯坦一样吐舌头的表情。

绘画的功力在第 1 个 prompt 里其实高下立见。

第 2 个 prompt 里没有秒画的图并不是我漏了,而是秒画提示我非法字符,我换掉了 " 爱因斯坦 " 和 " 脸部 ",都没有成功生成,姑且这样,也提醒一下想借助 AI 完成工作的朋友,把此类不确定因素考虑在内。

写实

1. 动物:一只威武的狮子,卧在非洲大草原上,慵懒地晒着太阳。

2. 车:一辆经典的老爷车,行驶在 60 年代的美国公路上,周围是广阔的沙漠景观。

在写实这个版块,狮子的光影层次可灵表现得更好。

秒画似乎并没有 get 到 " 写实 " 的味道,保持着绘画的风格。不过,后面也会说到,相对于可灵没得选,即梦 6 种迭代模型外,秒画有着 29 种基模型可以选择风格化的定制生图。

不知道哪位选手画出了你心中的老爷车。

3D 虚拟

1. 动漫风格,一位拥有超能力的动漫少女,眼睛闪烁着神秘光芒,背景是未来都市。

2. 动画风格,一个充满魔法书籍的图书馆,书架上的书籍漂浮在空中,书架之间有魔法生物在穿梭。

在这个版块,除了提示词所要求的魔法生物外,即梦是唯一画出了人的形象的 AI。

再创作

在这个版块,我原本想看看 AI 生图的想象力和对文化的理解能力,顺便把我喜欢的影视作品中 be(bad ending)的遗憾变成 he(happy ending),但是 ……。

prompt1:画一个至尊宝和紫霞仙子在一起的结局。

但是没想到我也 be 了,嗯,还是别在一起了。

我想再给 ta 们一次机会,考虑到我说得不够确切,不死心的我再次输入一个 prompt。

prompt2:画一个《海上钢琴师》中主角 1900 最终上岸了的生活场景。(虽然我也站不上岸)

好的,我明白了,涉及人文领域,AI 多半要 be。

不过,我乐于见到的是,创造力这种东西,仍然属于人类。AI 或许能够提供灵感,但它的纯文本想象力,目前仍然止步于为人类打辅助。

再创作也向我再次确证,只有与人类发生关联的一切才有意义。

操作体验

首先是功能区一览,我把可灵、即梦和秒画的操作区拼在了一起。

从操作上看,三位选手都是支持垫图的,可灵和秒画都可以选择生成 1 张 or 多张,即梦只能一次性生成 4 张,再从中选出自己中意的图。

即梦和秒画同时支持调节比例和尺寸,可灵只支持调节比例。

从使用体验感来说,可灵和秒画的生成速度大约在 15 秒,即梦有时耗时 20 秒,有时耗时一分多钟,并且发生这种情况的概率是 3:7。不过,它生成的图也更多。

如果氪金的话,可灵在图片生成之后,还可以进一步画质增强,而 " 生成视频 " 这个按钮,将一键直达 " 图生视频 ",也就是说,在 sora 的中间插了一步画面风格选择。

即梦生成图片之后,除了同样可以生成视频之外,支持画布编辑、超清图、细节修复、局部重绘、扩图和消除笔等功能。

而秒画,则在 prompt 的细节上有着较为 "Midjourney" 的表现,如优化提示词、负向提示词以及加速模式等,大有对标 Midjourney 的意图。

值得一提的是,除了上述的 29 个基模型,在模型广场中,一共呈现了 74 个不同风格的模型(包含 29 个基模型在内)。

公平起见,在上述测评中,我使用的仍然是默认的 Artist v1.0 Alpha 模型。大家在使用时可以自取所需,反复探索。

总评环节

总的来说,可灵、即梦和秒画在 AI 绘画这个产品上各有特点。

在我看来,人像模块,可灵对中国面孔有着更好的理解,更少的 " 网红感 ",更多的东方味道。外国面孔,秒画有着更好的细节。

绘画里,三位选手对传统诗歌内容都有着较好的理解能力,秒画对水墨画的艺术概念更清晰,但在人像速写中,可能会出现不稳定的情况,可灵则表现得更好。

写实中,可灵和即梦都理解了需求,而秒画似乎还沉浸在绘画的命令里。

3D 虚拟版块,三家难分伯仲,不难理解,AI 绘画为何会成为创作者的灵感来源。

再创作领域,可能需要提前垫图,不然可能会得到相当魔性的画风。AI 的理解力,尚未延伸到我们的文化生活。

使用门槛上,三家的操作都较为流畅,可灵和即梦有着基础 66 分左右的灵感值(通行货币名称),省着点用,可灵可以生成大约 300 次,即梦 60 多次,两者每天签到都送积分。秒画则是每天免费 10 次生成,更多次数或可邀请好友一起领 3 天无限卡。

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,18381人围观)参与讨论

还没有评论,来说两句吧...