随着视觉生成模型(如Stable Diffusion、Midjourney、DALL·E等)的快速发展,AI艺术创作已成为大众化的创意工具。然而,当前主流的视觉大模型普遍采用多风格融合训练的方式,模型在生成时往往同时学习了成千上万种艺术风格与构图逻辑。这种泛化式学习虽然提升了模型的多样性,但也带来了两个显著问题:
-
风格一致性缺失:现有模型生成的作品虽具备一定美感,但往往无法稳定复现特定艺术家的独特风格特征,例如笔触走向、色彩构成、构图逻辑、意象符号等。生成结果在细节表现上呈现出“混合风格”的特征,艺术辨识度较低。
-
艺术语义漂移:由于大模型在多风格语料中学习的特征过于分散,其输出的语义往往趋向于“平均化”,难以精准体现单一艺术家创作中的精神内核或美学意图。这使得模型更像是“风格的模仿者”,而非“风格的继承者”。
基于此,本项目旨在构建首个以单一画家风格为核心的大规模视觉模型ArtMaster。该模型基于Flux.1-dev基础模型,包含120亿参数,结合多阶段特征微调、跨层风格约束与语义引导机制,使生成的每一幅图像在风格、色调、笔触、构图逻辑上均与原艺术家保持高度一致。本项目填补了目前市面上尚无真正以“单一画家风格”为训练核心的大模型的空白。同时,通过模型化的方式保留艺术家的风格基因,推动数字艺术保护与再创作。我们以以湖南山水画大师曾晓浒先生的手稿作品为基础,验证了模型的有效性。
为了确保模型能够充分学习目标画家的风格特征,同时兼顾图像内容的完整性与分辨率适配性,本项目对原始画集数据进行了系统化的筛选与裁剪处理。首先,收集了曾晓浒老师的代表性作品。这些作品覆盖了其主要创作时期与典型题材,保证了画风在色彩、构图、笔触等方面的多样性与代表性。由于不同作品原始尺寸存在显著差异(包括横幅、竖幅及方形构图),因此在数据预处理阶段,对原图进行了统一的尺寸规范化。我们针对挑选出的作品,分别裁剪出了两种规格的样本,分别是512×512和512×768。在裁剪过程中,优先保留画面主体区域,避免破坏主要视觉元素和笔触连续性;对背景或边缘部分进行适度平衡裁剪,以保证风格一致性与训练数据的代表性。
本项目我们采用AdaLoRA进行模型微调,LoRA微调作为近年来在大模型领域广泛应用的一种轻量化适配方法,具有显著的灵活性与高效性。相比传统的全参数微调方式,LoRA不需要对原模型的全部权重进行更新,而是通过在特定层中引入低秩矩阵,对模型参数进行有针对性的调整。这种方法不仅极大地降低了训练过程中的显存占用与计算开销,还能在较小的数据集上实现稳定而精准的风格迁移。
为提升模型在高分辨率场景下的风格细节表达能力,本项目在输入端与输出端均引入了自适应图像超分机制。在训练阶段,使用针对艺术纹理优化的预超分模型对原始手稿进行放大处理,使笔触走向、墨色渐变等细节以更高像素密度呈现,从而增强模型对艺术风格关键特征的学习。在生成阶段,集成风格保持型超分模块,将输出图像无损放大至更高分辨率,同时通过纹理约束与色彩一致性损失,确保放大后的画面仍保持原艺术家特有的笔触结构与色调特征。该机制显著提升了模型在高分辨率艺术生成中的可控性与细节复现能力。
在单一画家风格模型ArtMaster基础上,下一步工作将探索基于LoRA-MoE(Low-Rank Adaptation Mixture-of-Experts)的多专家风格融合机制。具体而言,为不同艺术家分别训练独立的LoRA风格模块,将其视为“风格专家”,再通过门控网络(Gating Network)在推理阶段根据文本提示、构图语义或用户交互意图,自适应选择或加权组合不同专家的输出,从而实现多画家风格的柔性融合与分层控制。该机制不仅可以支持“以A画家的构图逻辑+以B画家的色彩系统+以C画家的线条笔触”这类复合式创作需求,还为研究“风格空间插值”“跨画派风格迁移”和“个性化风格混合”的可解释性提供了新的实验平台,有望推动从单风格继承走向多风格协同创作的新范式。
另一重要方向是构建类似于ControlNet的可控图像编辑与协同绘制框架,使不同画家的风格在同一画布上“各司其职、共同创作”。在技术路径上,可引入边缘图、深度图、语义分割图或草图布局等结构引导信号,对画面中的不同区域(如山石、水面、树木、建筑、人物等)进行语义分区,然后将各区域分别绑定到对应画家的风格LoRA或风格专家模块中,由模型在同一生成过程中对不同区域施加差异化风格约束。这种“区域-画家-风格”的三元映射,不仅可以实现“A画家绘山水、B画家绘人物”的多风格协同创作,还可以支持对既有作品的局部重绘、风格替换与结构保真编辑,形成一种具备精细空间控制能力的艺术级可控生成工具。
本项目将探索与大语言模型(LLM)深度融合的跨时空艺术联合创作模式,使艺术家的笔墨语言与文本叙事能力形成闭环。具体做法是将LLM作为“叙事与设定生成器”,负责构建不同时代、不同文化背景下的场景描述、人物设定与故事线索,例如“以古代某画家的绘画风格描绘现代城市的山水意象”。视觉模型则在LLM生成的高层语义约束下完成图像生成,通过跨模态对齐与风格一致性约束,将传统山水语汇映射到不同时期、不同题材的画面之中。该方向为传统艺术风格的当代转化与未来想象提供了一种系统化路径,使艺术家的风格真正实现“穿越时空”的延展与再生。
克隆本项目到本地:https://github.com/jiangfeibo/ArtMaster
git clone
cd ArtMaster
曾晓浒(1938-2015)是湖南美术界极具代表性的山水画大师和美术教育家,在湘生活、教学、创作共五十四年,成就了其融贯南北画风、吸收西画光色、表现湖南地域风貌的山水画面貌。他提出的"真山真水真笔墨"的山水画美学观念,体现了崇"真"精神和写生创作方法的统一。他的作品既有岭南画派明丽色彩和强烈光影的运用,又创造性地在深涧幽谷中以纯色点画明亮的乔木,形成个性鲜明的艺术语言。他对翠绿色系和赭黄色系的偏好与创造性运用,形成了其独特的诗意氛围营造方式。曾晓浒被认为是美术史上第一个长期寄寓湖南并以一生努力开拓、发掘、创造湖南山水画资源并形成潇湘山水画派的画家,堪称一代宗师。
指导老师: 江沸菠,jiangfb@hunnu.edu.cn,唐宏岳,曾进,湖南师范大学
模型设计与编程: 毛磊,202520294367@hunnu.edu.cn,湖南师范大学,在读研究生, 朱万运,湖南师范大学,在读研究生









