盏灯工作室仓薯:AI游戏踩坑经验和最新游戏原型 | 嘉程创业流水席220席精彩回顾
06.20.2024 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席

海龟汤是一个推理类型的游戏,如果游戏中涉及需要AI正确回答问题的情况,比如剧本杀,那么AI在与玩家交互时的性能会非常接近。

近日,嘉程创业流水席第220席【探讨AI游戏2024最新趋势】,邀请了盏灯工作室游戏制作人仓薯分享,主题是《AI游戏上线三个月:踩坑经验分享&新游戏抢先看》。

以下是正文内容:

我是仓薯,盏灯工作室的游戏制作人。我们是一个小型独立游戏工作室,我们的第一款游戏是文字解谜的海龟汤游戏——《海龟蘑菇汤》。游戏于2月底上线Steam平台,已经有三个月的时间了,也是Steam上第一批上线的AI类型游戏。今天跟大家分享一下我们在制作这款游戏上踩的一些坑,以及演示一些新游戏原型。

《海龟蘑菇汤》:一个人玩的海龟汤游戏

首先介绍一下《海龟蘑菇汤》这款游戏。它是一款高自由度的文字解谜游戏。在游戏中,主持人会描述一个不可思议的场景,而玩家则有机会自由提问。但是,主持人只能回答“是”或“否”,这样玩家就需要逐渐通过问题逐步接近真相。

例如,主持人可能会描述一个只穿内裤的男孩在人行道上死亡,手里拿着雨伞。玩家可以询问是否下雨了,主持人会回答“不”,但是玩家不能问“这个人是怎么死的”这类问题。最终,当玩家揭开谜底时,答案完全是他们自己通过思考得出来的,而不是从几个选项中选择的,过程中基本没有任何剧透和主持人提示,所以猜出谜底之后玩家会觉得非常有成就感。

海龟汤游戏在国内非常受欢迎,但它也有一个高门槛:需要朋友参与。大多数玩家认为游戏最高配置是“需要朋友”,并且海龟汤需要一个真人主持人,对“社恐”不友好,对场地和时间也有要求,需要大家凑在一起。所以我们想,如果一个人在地铁上也能玩这个游戏就好了。

因此,我们尝试开发了一个人也能玩的海龟汤游戏,叫《海龟蘑菇汤》。这款游戏在2022年获得了indiePlay的最佳移动游戏奖项,indiePlay是中国独立游戏最重要的两个奖项之一。当时它能够获奖,是因为玩法上有一定创新性,并且在没有任何广告投放的情况下,下载量超过100万次,并且在上线Steam首月销量达到了2万份,这在独立游戏中是不错的成绩。

《海龟蘑菇汤》的主要特色是它与传统推理游戏相比,没有预设问题和选项,完全靠玩家自由推理。我们尝试使用AI代替人工主持人,玩家反馈体验非常接近与朋友一起玩。

和AI相关的数据分享

首先,跟大家分享一些关于我们上线的AI相关数据。在第一个月内,我们已经收到了超过400万个问题。在《海龟蘑菇汤》游戏中,平均每个玩家提出了200个问题,这个数字远远超出了我们的预期。

在回答内容上,有28%的问题得到了“是”的回答,而58%的问题得到了“否”的回答。性能数据方面,有1.2%的答案被纠正过,这表明AI主持的正确率达到了99%左右。尽管有一些答案被纠正,但考虑到玩家的主观因素,我们可以说正确率超过99%,这是我们非常满意的结果。

在性能方面,中位数回答时间为150毫秒,这非常快速。对于有AI游戏经验的玩家来说,可能会发现大多数AI游戏都会带来较大延迟,因为大型模型通常会导致延迟。但是我们的中位数仍然很低,有75%的回答在一秒钟内完成。这是由于我们进行了大量的技术优化。我们最长也不会超过10秒钟的延迟,确保玩家在整个游戏过程中都能享受流畅的体验。

从300到1:AI游戏成本降低思路

回答这400万个问题花了多少成本呢?我们估算了一下,单独回答一个问题,最初的成本约为人民币三毛钱左右。我们使用了GPT4,这是一个贵但正确率比较高的模型。平均每个玩家在每个关卡、每个故事中提出20个问题。考虑到游戏中有64个故事,我们可以计算出一个玩家在游戏中的总成本。最终,我们发现一个玩家在游戏中花费了超过300块钱,而游戏的售价实际上只有35块钱。这样一来,难道我们卖一份就要亏300多块钱吗?

最初考虑到成本,我们都没有信心把AI大模型加入游戏玩法中。但是,我们进行了玩家问卷调查,发现75%的玩家认为AI的加入使游戏比之前的填词玩法要好玩,50%的玩家觉得游戏变得好玩很多。正是因为玩家有很高的热情,让我们坚持在这一方向上进行探索,反复尝试各种方法降低大模型的成本。

其中一个有效的方法是我们在玩家和大模型之间加入一层知识库。玩家的输入不会直接传递给大模型,而是首先进行语义近似搜索。如果之前有类似问题被问过,就会返回已经生成过的答案。这是技术优化里比较重要的一部分,除此之外我们还进行了许多细节优化。

接下来分享一下我们降低成本的尝试,这款游戏最开始是380块钱左右的成本。通过优化Prompt,将其从中文翻译成英文并进行结构优化后,降低了大约1/3。此时,GPT4-turbo推出,进一步降低成本到30%,使得单人使用成本降至51块钱。

最关键的成本降低步骤是技术优化,包括知识库技术和其他搜索技术。这些优化使得成本降至原价的1/10。最后,为了适应Steam平台分成和发行分成,我们进行了产品上的优化。例如,在海龟汤提问框中提供自动补全提示(类似百度搜索自动联想),这样玩家操作起来更加方便快捷,也减少了问题可能会到大模型那里的成本,并将成本降至原价的1/4。

通过不断地努力和尝试,我们将原价380块钱左右的成本降低到对于每个用户来说低至一块钱。相对我们35块钱的售价来说,基本是可以忽略不计的。总体而言,这些探索和优化都非常有成效。

市面上大模型对比——以文字推理游戏为例

下面是一些数据分享,我们使用人工标注的海龟汤问题数据集测试市面上大模型。这款游戏主要针对中国玩家,因此我们主要测试了中文模型。每个模型对不同类型的数据集的表现可能会有所不同。我相信游戏开发同行可以参考。海龟汤是一个推理类型的游戏,如果游戏中涉及需要AI正确回答问题的情况,比如剧本杀,那么AI在与玩家交互时的性能会非常接近。

在不考虑价格的情况下,我们发现GPT4是最佳的模型,其正确率明显高于其他模型。然而,由于其价格较高,我们也尝试其他模型。

许多国产模型称他们的模型达到了GPT4水平。但是,达到GPT4水平的模型通常价格也不会有很大优势。在价格上有优势的情况下,我们发现最合适、性价比最高的模型是Kimi。大家可以尝试一下,Kimi的正确率也非常不错,并且价格相比GPT4有明显优势。此外,Kimi的Rate Limit非常慷慨,即使用户数量较多也能支持。

合规经验——如何防止游戏被“玩坏”

最后分享一些合规方面的经验。

  • 首先,我们在游戏里内置了敏感词过滤。

  • 其次,我们一再试探GPT的底线,为了避免被封号,我们尝试了几个小号专门回答可能被视为高风险的问题。如果一个号被封号,我们会切换到另一个号。

  • 最后,我们采取了一些技术来防止Prompt注入。

在上线之前,我们很担心合规方面的问题,因为允许玩家自由输入的经验不多。但现在已经上线了三个月,我们在合规方面没有遇到什么风险。这让我们对使用大模型进行游戏开发更加自信,将大模型用于游戏并不是一件很危险的事情,只要把预先的合规准备做好就可以。

AI游戏玩法探索实例

上面是已经上线的游戏开发经验,下面跟大家分享一些我们正在开发的新游戏。

第一个游戏叫《没有感情的扫地机器人》,它类似于《旅行青蛙》的休闲放置游戏。“世界破破烂烂,我们缝缝补补”,在末日废土中带上扫地机器人去旅行。这是一款清扫废墟、治愈地球的休闲治愈游戏。

这款游戏使用大量生成的美术素材,特别是对于那些熟悉《旅行青蛙》的玩家来说玩法非常熟悉,在游戏中,青蛙会旅行并带回明信片。但随着时间的推移,明信片开始重复出现,因为它们是手绘制的,成本高昂,无法支持长时间的游戏体验。

为了解决这个问题,我们尝试使用AI来生成明信片,显著降低了生产成本。这样,玩家可以在游戏中旅行而不会收到任何重复的明信片。游戏中还包含一个涂抹过程,玩家可以从废墟版开始,通过手动涂抹来生成晴天版图片,而废墟版图片也是通过AI技术生成的。

游戏中还有一个“家”的概念,类似于《旅行青蛙》中的家庭。玩家会在这里花费更多时间,并且会看到丰富的动画,所以这部分我们仍然使用手绘。这款游戏主要探索了使用AI来降低成本的可能,同时也保持良好的游戏品质,把画师的时间用在刀刃上。

有经验的朋友可能会猜到我们使用哪个模型来画图,我分享一些经验:

首先是水彩风格的明信片,是用Midjourney画的,Midjourney的美术风格最好,画出来的图最美观。

上面展示了用Stable Diffusion的ControlNet功能生成的一个废墟版图片。这幅图的构图与之前的图完全相同,但带有末日废土的感觉。玩家在末日废土上进行清扫,用手指涂抹就能得到左图,这给玩家带来了非常有成就感、非常治愈的体验。我们主要使用Stable Diffusion的ControlNet功能对原本图像进行处理,同时保持结构不变。

在游戏旅行过程中,除了收集明信片外,玩家还能收集当地纪念品,并得到贴纸贴在图鉴的手账里。这些贴纸是用DALL-E模型绘制的,DALL-E在AI画图模型里语义理解能力最强,它能够准确地描绘包含多种当地特色的贴纸,如贝壳手链。如果使用Midjourney模型来画这些贴纸,可能会发现它缺乏相关训练素材。但DALL-E对语言理解非常好,能够帮助我们准确地创造这些旅行纪念品。同时,这个场景对于美术要求不高,因此我们选择了DALL-E模型。

最后,小机器人的贴纸完全是手绘的。所以实际上,游戏中的明信片是由AI画的背景和手绘的贴纸两部分组合成的。

这是一个游戏是看四张图猜成语的游戏——《主公请猜词》,这个游戏的玩法非常简单,观察四张图,从下面的字里选出成语。这个玩法过关很快,我们为了保持留存,还设计了长线抽卡玩法。当猜对这个成语之后就可以赚金币,可以用金币抽一些用AI绘制的三国人物手办。

可以看到,AI画图的质量还是不错的,有一种清新明快的风格,并且能够画出现实中不太常见的场景。比如,图上的关卡代表“草船借箭”,它能够画出船上长着草。尽管在训练数据中可能没有这样的场景,但AI仍然能够创造出超现实的画面,这对生产关卡非常有帮助。

AI绘制的三国人物手办看起来比较有质感,有点像3D小手办。但我们也遇到了一个问题:当画了多个角色时,风格可能会不一致。我们还不确定玩家是否会接受这种风格差异,这需要等待上线后看效果。

第三个案例是我们参与了合作设计的游戏《LLM RIDDLE》。虽然名字有点拗口,但它是一个致力于“把大模型玩坏”的游戏。玩法很简单,玩家可以任意编写Prompt,但AI回答必须满足特定要求。

比如第一道题,题目“得寸进狗”要求提出不包含“狗”字的问题,字数不超过10个,但回答中必须多出现“狗”字两倍。

第二个题目是“喵喵喵”,玩家需要通过对话让AI回复中包含“喵”字,但只能使用AI已经使用过的字。

第三个例子背后是两个Agent,它们的Prompt不同:一个是理科生,另一个是文科生。它们都假装理科生,玩家需要判断哪一个真正是文科生。

最后他们团队也尝试了多模态,用到了AI识图,玩家需要手动画图,让AI识别其中的动物。

总结一下我们在使用AI降低成本方面的经验。AI生成代码是我们每天都会使用的。在美术方面,我们使用了三个不同的模型。至于音乐,我们尝试过配音,但目前的帮助程度还不大。文本方面,我们更多地用它来寻找灵感,但并没有直接应用。

以上就是我的分享。

 

Q&A

席友:在AI游戏开发过程中,除了节省成本之外,最大的痛点是什么?

仓薯:大模型对齐是我们面临的一个比较大的痛点。当对齐太强时,AI生成的文本质量会下降。尽管现在多模态技术也广泛应用,但语言模型还是走在前面。我们期待能够利用AI大模型来支持剧情导向游戏,但这一方面的探索会比较痛苦。因为大模型对齐过于强大,AI生成的剧情往往很中规中矩,不够刺激、新颖,与玩家的消费需求差别非常大。

我们理解大模型公司可能担心风险,希望生成的内容总是友好和正确。然而,游戏玩家的需求不同,过于友好的内容可能会缺乏戏剧冲突。我们希望能够生成一些比较阴暗或者有特色的剧情,但实际上这是非常困难的。其他方面的探索我们会有经验,但这个问题现在感觉比较棘手,没有明确的解决方案。

 

 

嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

嘉程资本投资涵盖人工智能、数字医疗与健康、科技全球化、生物科技与生命科学、新能源、云原生、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴,成长的伙伴。

 

嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap20176