变身“神笔马良”，国产AI只需要15秒

访客 2024-09-04 19:11:02 18381 抢沙发

默认

摘要： 出品｜虎嗅科技组作者｜余杨编辑｜苗正卿头图｜视觉中国8 月 29 日， Midjourney 宣布将涉足硬件领域，并在社交媒体 X 上发布消息广揽人才，来充实其新成立的硬件部门。A...

出品｜虎嗅科技组

作者｜余杨

编辑｜苗正卿

头图｜视觉中国

8 月 29 日， Midjourney 宣布将涉足硬件领域，并在社交媒体 X 上发布消息广揽人才，来充实其新成立的硬件部门。

AI 绘画似乎要卷出新形态。

这并不奇怪。Midjourney 创始人 David Holz 曾任 Leap Motion 的首席技术官，具备丰富的硬件经验。他的前同事——现为 Midjourney 硬件部门负责人—— Ahmad Abbas 也曾在苹果公司工作过五年，担任硬件经理，参与了 Vision Pro 头显的研发。

在此之前，我曾问过一众美术、设计相关专业的从业者，Midjourney 对 ta 们来说意味着什么。得到最多的答案是：灵感。

而对非艺术专业的，比如我，或是为了配插图，或是出于好奇，抽卡自娱，也弥补弥补应试教育那些年没能开发自己艺术细菌的遗憾。

但由于 Midjourney 的使用有一定的门槛（比如魔法，比如一些些米），也劝退了不少人。

好在，随着 AI 产品的国产化，国内大模型的 AI 绘画也成长了起来。那么今天，我们就来横向测评几个国产文生图的 AI 模型，并静候 AI 绘画的新形态。

今天参与测评的玩家有：快手可灵 AI、字节即梦 AI、商汤秒画。

为了更好地揭示各家大模型的所长，测评的系列则混合人像、绘画、写实、3D、再创作等几个方面。

考虑到方便对比，接下来即以系列主题为纲，所生成的条目按可灵、即梦、秒画的顺序排列，图像比例都设置为 1:1，其他参数默认。

最后，结合操作过程中的使用体验和特点给出总评，着急的朋友可以直接下拉到操作体验和总评环节。

人像

1. 摄影，中景，穿着传统汉服的中国女性，手持折扇，优雅含笑，在古典园林中漫步。

2. 特写，夜景，时尚芭莎杂志，金发碧眼的欧洲女孩，黑色夹克，酷辣风格，站在巴黎埃菲尔铁塔前，手里有一杯咖啡。

从人像模块可以看到，第 1 个 prompt 里，我的命令是手持折扇，即梦给了我一个团扇；

第 2 个 prompt 里，三家似乎都没有 get 到我金发碧眼的命令，生成的图片都是蓝瞳。

绘画

1. 中国水墨画，" 孤舟蓑笠翁，独钓寒江雪 "，意境悠远，云雾缭绕。

2. 人物脸部速写，铅笔画，中年男子，穿着宇航服，有着爱因斯坦一样吐舌头的表情。

绘画的功力在第 1 个 prompt 里其实高下立见。

第 2 个 prompt 里没有秒画的图并不是我漏了，而是秒画提示我非法字符，我换掉了 " 爱因斯坦 " 和 " 脸部 "，都没有成功生成，姑且这样，也提醒一下想借助 AI 完成工作的朋友，把此类不确定因素考虑在内。

写实

1. 动物：一只威武的狮子，卧在非洲大草原上，慵懒地晒着太阳。

2. 车：一辆经典的老爷车，行驶在 60 年代的美国公路上，周围是广阔的沙漠景观。

在写实这个版块，狮子的光影层次可灵表现得更好。

秒画似乎并没有 get 到 " 写实 " 的味道，保持着绘画的风格。不过，后面也会说到，相对于可灵没得选，即梦 6 种迭代模型外，秒画有着 29 种基模型可以选择风格化的定制生图。

不知道哪位选手画出了你心中的老爷车。

3D 虚拟

1. 动漫风格，一位拥有超能力的动漫少女，眼睛闪烁着神秘光芒，背景是未来都市。

2. 动画风格，一个充满魔法书籍的图书馆，书架上的书籍漂浮在空中，书架之间有魔法生物在穿梭。

在这个版块，除了提示词所要求的魔法生物外，即梦是唯一画出了人的形象的 AI。

再创作

在这个版块，我原本想看看 AI 生图的想象力和对文化的理解能力，顺便把我喜欢的影视作品中 be（bad ending）的遗憾变成 he（happy ending），但是 ……。

prompt1：画一个至尊宝和紫霞仙子在一起的结局。

但是没想到我也 be 了，嗯，还是别在一起了。

我想再给 ta 们一次机会，考虑到我说得不够确切，不死心的我再次输入一个 prompt。

prompt2：画一个《海上钢琴师》中主角 1900 最终上岸了的生活场景。（虽然我也站不上岸）

好的，我明白了，涉及人文领域，AI 多半要 be。

不过，我乐于见到的是，创造力这种东西，仍然属于人类。AI 或许能够提供灵感，但它的纯文本想象力，目前仍然止步于为人类打辅助。

再创作也向我再次确证，只有与人类发生关联的一切才有意义。

操作体验

首先是功能区一览，我把可灵、即梦和秒画的操作区拼在了一起。

从操作上看，三位选手都是支持垫图的，可灵和秒画都可以选择生成 1 张 or 多张，即梦只能一次性生成 4 张，再从中选出自己中意的图。

即梦和秒画同时支持调节比例和尺寸，可灵只支持调节比例。

从使用体验感来说，可灵和秒画的生成速度大约在 15 秒，即梦有时耗时 20 秒，有时耗时一分多钟，并且发生这种情况的概率是 3:7。不过，它生成的图也更多。

如果氪金的话，可灵在图片生成之后，还可以进一步画质增强，而 " 生成视频 " 这个按钮，将一键直达 " 图生视频 "，也就是说，在 sora 的中间插了一步画面风格选择。

即梦生成图片之后，除了同样可以生成视频之外，支持画布编辑、超清图、细节修复、局部重绘、扩图和消除笔等功能。

而秒画，则在 prompt 的细节上有着较为 "Midjourney" 的表现，如优化提示词、负向提示词以及加速模式等，大有对标 Midjourney 的意图。

值得一提的是，除了上述的 29 个基模型，在模型广场中，一共呈现了 74 个不同风格的模型（包含 29 个基模型在内）。

公平起见，在上述测评中，我使用的仍然是默认的 Artist v1.0 Alpha 模型。大家在使用时可以自取所需，反复探索。

总评环节

总的来说，可灵、即梦和秒画在 AI 绘画这个产品上各有特点。

在我看来，人像模块，可灵对中国面孔有着更好的理解，更少的 " 网红感 "，更多的东方味道。外国面孔，秒画有着更好的细节。

绘画里，三位选手对传统诗歌内容都有着较好的理解能力，秒画对水墨画的艺术概念更清晰，但在人像速写中，可能会出现不稳定的情况，可灵则表现得更好。

写实中，可灵和即梦都理解了需求，而秒画似乎还沉浸在绘画的命令里。

3D 虚拟版块，三家难分伯仲，不难理解，AI 绘画为何会成为创作者的灵感来源。

再创作领域，可能需要提前垫图，不然可能会得到相当魔性的画风。AI 的理解力，尚未延伸到我们的文化生活。

使用门槛上，三家的操作都较为流畅，可灵和即梦有着基础 66 分左右的灵感值（通行货币名称），省着点用，可灵可以生成大约 300 次，即梦 60 多次，两者每天签到都送积分。秒画则是每天免费 10 次生成，更多次数或可邀请好友一起领 3 天无限卡。

标签：模型风格

分享

发表评论取消回复

评论列表（暂无评论，18381人围观）参与讨论

还没有评论，来说两句吧...