Artificial intelligence

Normally, I don’t share too much information or detail on how I produce my art. However, when some art is made using generative AI tools, I think it is important to be totally transparent about how it is used to avoid any misunderstanding.

To be clear, in this explanation, I will only cover the use of generative AI and not other AI tools such as Stem Separation from Spleeter or ML Enhance from Pixelmator.

I think the reason generative AI is met with a fiery reaction by some people lies in the apparent simplicity and, more importantly, the speed of generating audio, images, videos, as well as code, 3D meshes, etc. It is clear that, from a production point of view, artists cannot compete against this machine by quantity, and as the quality of output increases, it will become even harder to compete in quality.

As of today (November 2024), I only use generative AI as a tool to generate content that I then modify, rework, and remix for my art. So far, only three pieces have used this technology for the Steo Le Panda art project:

For each of these pieces, the output generated by the AI tool was used as a building block to create something more evolved. It wasn’t just “enter the prompt, choose one I like, and post it unmodified as genuine work.”

I can assure you it wasn’t used out of laziness, as I spent a long, long time creating these artworks and remix albums (far more than I thought it would take, even with the use of efficient tools like these).

For example, in the artworks, multiple AI-generated images were fused together using traditional software (Pixelmator Pro) to create the final pieces. This is similar to a patchwork artwork using these generated images as resources, adding effects, and combining them. I could have obtained a similar result using stock photos (not AI-generated), but it wouldn’t fit the EP/album themes of cyberpunk in China.

For the remix album M4 CH1N3 QU1 R3V3, each track was condensed from between 4 and 12 generated outputs. Each of these outputs was created based on audio samples I fed the algorithm, sometimes just short extracts from one of my songs, sometimes just a few sounds.

However, most of the voices were added afterwards using original recordings, as the AI tool was not great at processing them without distortion. The only voices generated by AI for this work are on M0R3 C0W83225, 4D5, and 82155.

Generative AI for websites and apps

There is another area where I use generative AI a lot: building websites and apps.

Strangely, I feel much more comfortable using it there than for music. In music production, generative AI can sometimes leave me with the less fun part of the work: editing loops, arranging material, mixing, mastering, and trying to turn generated ideas into something that really feels alive.

For websites and apps, it is almost the opposite. When I was making websites with WordPress or Tumblr, I liked having a website, but I never really enjoyed building the pages. Even with a content manager, there were always layouts to fight, settings hidden inside other settings, and small technical problems between the idea and the result.

For apps, it was even worse. I always had many ideas, but trying to code them was often a nightmare. My panda brain is simply not naturally wired for traditional programming.

It is not that I hate logic or systems. I actually enjoy “code with noodles”: Quartz Composer, Max for Live, Unreal Engine Blueprints, and other visual tools where I can connect ideas together and see what happens. But writing regular code from an empty screen always felt much harder.

With generative AI, building websites and apps becomes much closer to what I enjoy: imagining the concept, designing the experience, testing the prototype, breaking it, improving it, and creating the art around it.

In this case, AI does not remove the fun part. It removes a lot of the boring wall between the idea and the prototype.

I think generative AI is an amazing tool that, right now, can help artists experiment with a lot of control and really push art creation in a good direction. However, it is true that it can also be used to generate soulless and lazy content. But in the same way, audio samplers can be used very creatively, or just in a lazy way (like sampling a famous disco song and only adding a house beat without any other production work…).

Additionally, I think in a few years/decades we will look back to these days with nostalgia, and the lo-fi sound quality of these early AI generative will be a stylistique effects that future producer might want to emulate, the same way they add “warmth” to songs by using cassette audio effects.

I do believe that being able to control the AI models—even being able to train them yourself—is the better way to go. This is an area in which I still have much to learn, but I am interested. For example, I would like to create a generative AI that could take the sound of my music and apply it automatically to the composition of another. Does this ring a bell?

(This article has been typed by hand on a computer, but sent to a LLM for checking spelling mistakes…)

Intelligence artificielle

Normalement, je ne partage pas trop d’informations ou de détails sur la manière dont je produis mon art. Cependant, quand certaines œuvres sont faites avec des outils d’IA générative, je pense qu’il est important d’être totalement transparent sur la manière dont ils sont utilisés, afin d’éviter tout malentendu.

Pour être clair, dans cette explication, je parlerai uniquement de l’utilisation de l’IA générative, et pas d’autres outils d’IA comme la séparation de stems avec Spleeter ou ML Enhance dans Pixelmator.

Je pense que la raison pour laquelle l’IA générative provoque une réaction aussi vive chez certaines personnes tient à la simplicité apparente et, surtout, à la vitesse avec laquelle elle peut générer de l’audio, des images, des vidéos, du code, des meshes 3D, etc. Il est clair que, d’un point de vue de production, les artistes ne peuvent pas rivaliser avec cette machine en quantité, et plus la qualité des résultats augmente, plus il deviendra difficile de rivaliser aussi en qualité.

À ce jour (novembre 2024), j’utilise seulement l’IA générative comme un outil pour générer du contenu que je modifie ensuite, retravaille et remixe pour mon art. Jusqu’ici, seules trois pièces ont utilisé cette technologie pour le projet artistique Steo Le Panda :

Pour chacune de ces pièces, le résultat généré par l’outil d’IA a été utilisé comme un bloc de construction pour créer quelque chose de plus évolué. Ce n’était pas simplement “entrer un prompt, choisir une image qui me plaît, et la poster sans modification comme une œuvre authentique.”

Je peux vous assurer que ce n’était pas par paresse, car j’ai passé beaucoup, beaucoup de temps à créer ces artworks et albums remixés (bien plus que ce que j’imaginais, même avec l’utilisation d’outils efficaces comme ceux-là).

Par exemple, dans les artworks, plusieurs images générées par IA ont été fusionnées avec un logiciel traditionnel (Pixelmator Pro) pour créer les pièces finales. C’est similaire à un patchwork visuel utilisant ces images générées comme ressources, en ajoutant des effets et en les combinant. J’aurais pu obtenir un résultat similaire avec des photos de stock (non générées par IA), mais cela n’aurait pas aussi bien correspondu aux thèmes cyberpunk en Chine de l’EP/album.

Pour le remix album M4 CH1N3 QU1 R3V3, chaque morceau a été condensé à partir de 4 à 12 résultats générés. Chacun de ces résultats a été créé à partir de samples audio que j’ai donnés à l’algorithme, parfois de courts extraits d’un de mes morceaux, parfois seulement quelques sons.

Cependant, la plupart des voix ont été ajoutées ensuite avec des enregistrements originaux, car l’outil d’IA n’était pas très bon pour les traiter sans distorsion. Les seules voix générées par IA dans cette œuvre sont sur M0R3 C0W83225, 4D5 et 82155.

IA générative pour les sites web et les apps

Il y a un autre domaine où j’utilise beaucoup l’IA générative : la création de sites web et d’apps.

Étrangement, je me sens beaucoup plus à l’aise avec cette utilisation qu’avec la musique. En production musicale, l’IA générative peut parfois me laisser la partie la moins amusante du travail : éditer des boucles, arranger la matière, mixer, masteriser, et essayer de transformer des idées générées en quelque chose qui semble vraiment vivant.

Pour les sites web et les apps, c’est presque l’inverse. Quand je faisais des sites avec WordPress ou Tumblr, j’aimais avoir un site, mais je n’ai jamais vraiment aimé construire les pages. Même avec un gestionnaire de contenu, il y avait toujours des mises en page à combattre, des réglages cachés dans d’autres réglages, et plein de petits problèmes techniques entre l’idée et le résultat.

Pour les apps, c’était encore pire. J’ai toujours eu beaucoup d’idées, mais essayer de les coder était souvent un cauchemar. Mon cerveau de panda n’est simplement pas câblé naturellement pour la programmation traditionnelle.

Ce n’est pas que je déteste la logique ou les systèmes. En fait, j’aime beaucoup le “code avec des nouilles” : Quartz Composer, Max for Live, Unreal Engine Blueprints, et d’autres outils visuels où je peux connecter des idées ensemble et voir ce qui se passe. Mais écrire du code classique à partir d’un écran vide m’a toujours semblé beaucoup plus difficile.

Avec l’IA générative, construire des sites web et des apps devient beaucoup plus proche de ce que j’aime : imaginer le concept, designer l’expérience, tester le prototype, le casser, l’améliorer, et créer l’art autour.

Dans ce cas, l’IA ne retire pas la partie amusante. Elle enlève une grande partie du mur ennuyeux entre l’idée et le prototype.

Je pense que l’IA générative est un outil incroyable qui, aujourd’hui, peut aider les artistes à expérimenter avec beaucoup de contrôle et à pousser la création artistique dans une bonne direction. Cependant, il est vrai qu’elle peut aussi être utilisée pour générer du contenu sans âme et paresseux. Mais de la même manière, les samplers audio peuvent être utilisés de façon très créative, ou de façon paresseuse (comme sampler un morceau disco célèbre et seulement ajouter un beat house sans aucun autre travail de production…).

En plus, je pense que dans quelques années/décennies, nous regarderons cette époque avec nostalgie, et que la qualité lo-fi des premières IA génératives deviendra peut-être un effet stylistique que les producteurs du futur voudront émuler, de la même façon qu’ils ajoutent aujourd’hui de la “chaleur” aux morceaux avec des effets cassette.

Je crois que pouvoir contrôler les modèles d’IA — et même pouvoir les entraîner soi-même — est la meilleure direction à prendre. C’est un domaine dans lequel j’ai encore beaucoup à apprendre, mais qui m’intéresse. Par exemple, j’aimerais créer une IA générative capable de prendre le son de ma musique et de l’appliquer automatiquement à la composition d’un autre morceau. Est-ce que ça vous rappelle quelque chose ?

(Cet article a été tapé à la main sur un ordinateur, mais envoyé à un LLM pour corriger les fautes d’orthographe…)

人工智能

通常，我不会分享太多关于我是怎样制作自己艺术作品的信息或细节。不过，当某些作品使用了生成式人工智能工具时，我觉得有必要完全透明地说明我是怎样使用它的，以避免任何误解。

为了说清楚，这篇说明只讨论生成式人工智能的使用，不包括其他 AI 工具，例如 Spleeter 的分轨工具，或 Pixelmator 的 ML Enhance。

我觉得有些人对生成式 AI 反应很激烈，原因在于它看起来太简单，更重要的是，它生成音频、图像、视频、代码、3D 模型等等的速度太快。从生产的角度来说，艺术家显然不可能在数量上和这台机器竞争；而随着输出质量越来越高，在质量上竞争也会变得更难。

截至今天（2024 年 11 月），我只把生成式 AI 当作一种工具，用来生成一些内容，然后我再把这些内容修改、重做、重新混合，变成我的艺术作品的一部分。到目前为止，Steo Le Panda 这个艺术项目中，只有三件作品使用了这种技术：

对这些作品来说，AI 工具生成的结果只是一个素材块，用来创造更复杂的东西。并不是“输入一个 prompt，选一个我喜欢的，然后不修改就当成真正的作品发布”。

我可以保证，这不是因为偷懒。事实上，我花了非常非常多时间来制作这些 artworks 和 remix albums（比我原来想象的久得多，即使使用了这些高效率工具）。

比如在这些 artworks 里，我用传统软件（Pixelmator Pro）把多张 AI 生成图片融合在一起，做成最终作品。这有点像一种拼贴作品：把生成的图片当作资源，加入效果，然后组合在一起。我也可以用 stock photos（不是 AI 生成的图片）做出类似效果，但那样就不太符合 EP/album 在中国的 cyberpunk 主题。

对于 remix album M4 CH1N3 QU1 R3V3，每首歌都是从 4 到 12 个生成结果中浓缩出来的。每一个生成结果都是基于我喂给算法的音频 samples，有时候是我某首歌的一小段，有时候只是几个声音。

不过，大部分人声都是后来用原始录音加进去的，因为这个 AI 工具在处理人声时很容易产生失真。在这件作品中，唯一由 AI 生成的人声出现在 M0R3 C0W83225、4D5 和 82155。

用于网站和 App 的生成式 AI

还有另一个我经常使用生成式 AI 的领域：做网站和 apps。

很奇怪，我对这种用法比对音乐里的用法更舒服。在音乐制作里，生成式 AI 有时候会把不太有趣的部分留给我：剪辑 loops、整理素材、混音、母带处理，然后努力把生成出来的想法变成真正有生命的东西。

但是对于网站和 apps，几乎正好相反。以前我用 WordPress 或 Tumblr 做网站时，我喜欢“拥有一个网站”这件事，但我从来不太喜欢搭建页面本身。即使用内容管理系统，也总是要和布局打架，要找藏在设置里的设置，还要处理很多夹在想法和结果之间的小技术问题。

对于 apps 来说就更糟糕了。我一直有很多想法，但真正去写代码常常像噩梦一样。我的熊猫大脑天生就不是为传统编程接线的。

这并不是说我讨厌逻辑或系统。其实我很喜欢“面条式代码”：Quartz Composer、Max for Live、Unreal Engine Blueprints，还有其他可以把想法连在一起、马上看到会发生什么的视觉工具。但是从一块空白屏幕开始写普通代码，对我来说一直困难得多。

有了生成式 AI，做网站和 apps 变得更接近我喜欢的部分：想概念、设计体验、测试 prototype、把它弄坏、再改好，然后围绕它创作视觉和艺术。

在这种情况下，AI 没有拿走有趣的部分。它拿走的是想法和 prototype 之间那堵无聊的墙。

我觉得生成式 AI 是一个很惊人的工具。现在，它可以帮助艺术家以很多控制力进行实验，并把艺术创作推向一个好的方向。不过，确实也有人会用它生成没有灵魂、很偷懒的内容。但这就像 audio samplers 一样：采样器可以被非常有创造力地使用，也可以被很偷懒地使用（比如采样一首著名 disco 歌，只加一个 house beat，却不做任何其他制作工作……）。

另外，我觉得几年或几十年之后，我们可能会带着怀旧感回看今天。早期生成式 AI 的 lo-fi 声音质量，也许会变成未来制作人想要模仿的一种风格效果，就像他们现在用 cassette audio effects 给歌曲增加“温暖感”一样。

我确实相信，能够控制 AI 模型——甚至能够自己训练它们——是更好的方向。这是一个我还有很多东西要学习的领域，但我很感兴趣。例如，我想创造一个生成式 AI，它可以把我音乐里的声音，自动应用到另一首作品的 composition 上。Does this ring a bell?

（这篇文章是在电脑上手打的，但发给了一个 LLM 来检查拼写错误……）