
Grok Video Generator
加载中...

系统了解 Grok Imagine 提示词公式,获取可直接复制的示例,并为 AI 短视频、image-to-video 片段和社媒创意写出更稳定的提示词。
如果你在搜索 Grok Imagine 提示词,通常只想尽快解决一件事:怎样写出一个真正能生成可用短视频的提示词,而不是只得到一个“看上去有点像,但没法直接用”的初稿。
也正是在这里,大多数提示词教程会失效。很多文章把 Grok Imagine 当成普通的文本输入框来讲,但实际使用时,只要你把 谁在画面里、发生什么动作、镜头怎么走、场景氛围是什么、声音该怎么表现,以及哪些内容必须保持稳定 说清楚,结果通常会明显更好。
结论先说:高质量的 Grok Imagine 提示词,更像一份简短的创意 brief,而不是一串零散关键词。
截至 2026 年 3 月 26 日,公开文档里已经明确了一些会直接影响写提示词的边界条件。Grok Imagine 的视频工作流更偏向短时长、实用画幅和快速迭代,而不是长时段、多镜头的复杂连续叙事。目前公开支持的信息包括:
1:1、16:9、9:16、4:3、3:4、3:2、2:3 等常用比例reference-image 工作流支持最多 7 张参考图,该模式下最长 10 秒这些限制并不是坏事。恰恰相反,它们等于提前告诉你该怎么写:场景要聚焦,动作要单一,目标要明确到“一个可以发布或测试的短节拍”。

好的提示词不是试图“把所有信息都塞进去”,而是抓住最关键的几个变量,让短视频看起来像是被设计过,而不是随机生成。
可以把它拆成下面几层:
| 提示词任务 | 你要写清什么 | 为什么重要 |
|---|---|---|
| 锁定主体 | 人物、物体、产品或环境 | 主体模糊时,短视频最容易失控 |
| 定义动作 | 一个主要动作或一个主要变化 | 动作太多通常会让运动逻辑变脏 |
| 指定镜头 | 推近、环绕、手持、跟拍、固定机位 | 镜头语言会直接改变成片气质 |
| 设定场景 | 地点、天气、道具、时间 | 场景信息能避免画面显得空泛 |
| 明确视觉风格 | 光线、色彩、镜头质感、写实程度、材质感 | “电影感”必须落到具体可见的东西上 |
| 设计声音 | 环境声、音效、音乐脉冲、人群声、静默 | 对 Grok Imagine 来说,带声音的第一版更接近可判断内容 |
| 保护关键约束 | 人脸一致性、构图、产品细节、节奏 | 约束能防止模型在生成中跑偏 |
如果你现在写的提示词效果一直不稳定,通常不是模型“不会做”,而是上面某一层根本没写清。

加入 Grok 视频社区
订阅获取 Grok 视频生成器最新新闻和动态
最容易复用的一套公式就是:
[subject] + [primary action] + [scene] + [camera move] + [lighting/style] + [sound] + [stability constraint]它听起来很简单,但多数人真正在写时,还是会漏掉其中一两层。于是结果就会变成:前一秒还不错,后一秒主体飘了、动作乱了,或者整个视频突然长成了另一种风格。
如果要我给出一版更接近实战的写法,我会用下面这个结构:
A [subject] does [one action] in [setting]. The camera [camera direction].
Lighting is [lighting], style is [visual tone], audio includes [sound cue].
Keep [identity or detail] stable and avoid [specific failure].这套结构之所以适合 Grok Imagine,原因很直接:
最后一点尤其重要。第一版如果已经八成接近,你不需要推翻重来。你真正要做的是保留一份稳定底稿,然后只改一层:

你可以按下面这七层顺序来写。
先写清楚观众最终应该记住谁或什么。
好的写法:
弱的写法:
只选一个主动作。
好的写法:
弱的写法:
短视频最适合的不是“很多动作同时发生”,而是一个主动作 + 一层次级环境运动。
很多新手提示词,最常死在这里。因为一旦你不告诉模型镜头应该怎么走,模型就会自己补动作,而这种补法往往看起来是随机的。
常用且好用的镜头语言包括:
给画面一个真正能“落地”的空间。
更好的场景细节通常包括:
不要只写一句“有电影感”。把它拆成真正能看见的东西。
更好的风格表达:
对 Grok Imagine 来说,声音不是附属项。声音方向会直接改变你对第一版结果的判断效率。
例如:
这一层最容易被忽略。
你最好加上一句,明确哪些部分不允许模型随意改写:
下面这些示例,都是围绕这类关键词背后的真实需求写的:短 AI 视频、广告创意、社媒短片、以及基于图片的动画。
A streetwear creator steps out of a glowing convenience store at night, looks into the camera, and flicks open a silver lighter without lighting it. Slow handheld push-in, neon reflections on wet pavement, cool blue and magenta contrast, layered city ambience and passing scooter sounds. Keep the face clear and the frame focused on one subject only.A matte-black smartwatch stands on wet glass as a thin ring of water circles the base and the screen wakes up with a clean pulse. Slow dolly-in, premium studio lighting with metallic edge highlights, restrained electronic click and low bass hit. Keep the product shape, strap texture, and logo area stable.Close portrait of a singer under soft stage light, natural blinking, subtle breath, a gentle head turn toward camera, loose hair moving slightly in warm airflow. Very slow push-in, shallow depth feel, soft crowd ambience and distant reverb. Keep facial identity and makeup details consistent.A small tram moves through a rain-soaked old town at blue hour while window lights glow and pedestrians pass under umbrellas. Smooth side tracking shot, realistic reflections, quiet wheel noise and light street ambience. Keep the pacing calm and avoid chaotic camera swings.A creator holds a skincare bottle in a bright bathroom mirror shot, rotates the bottle once, smiles slightly, and places it near the sink. Casual handheld framing, soft morning light, subtle room tone and bottle tap sound. Keep the label readable and the hand movement natural.A teenage runner pauses on a rooftop at sunset as wind lifts the jacket hem and distant trains move below. Fast parallax push toward the face, vivid orange sky, stylized contrast, dramatic pulse in the soundtrack. Keep one character only and preserve the rooftop framing.很多搜索 Grok Imagine 提示词的人,其实并不是想从零做纯 text-to-video。他们已经有一张图,只想让这张图动起来。
这时候,提示词的任务就变了。
对于 image-to-video,你不需要再把整张图从头描述一遍,而是应该更明确地写出:哪里要动、哪里不要动、以及这张图适合承受多强的镜头运动。
高质量的 image-to-video 提示词,通常包含:
可以直接套下面这个结构:
Animate [specific part of the image] with [subtle or strong motion].
Add [camera move] and [ambient change].
Keep [identity/composition/product details] stable.例如:
Animate this portrait with natural blinking, a slight head turn, soft wind moving loose hair strands, and a slow push-in camera move. Keep facial identity stable and preserve the warm afternoon light.这类提示词之所以有效,是因为它非常明确地告诉模型:运动被允许发生在什么地方。
提示词质量大部分就是在这里拉开差距的。
| 常见问题 | 低质量提示词通常会怎么写 | 更好的修法 |
|---|---|---|
| 动作太多 | 试图把完整故事塞进一个短片 | 保留一个主节拍 + 一层次级氛围 |
| 镜头语言太空 | 只写“有电影感”,但不写镜头 | 直接命名镜头:push-in、orbit、handheld、locked、tracking |
| 主体控制太弱 | 只写情绪,不写焦点 | 从一个主体和一个动作开始 |
| 风格形容堆得太满 | 用很多形容词,但没有层次 | 只保留 2 到 3 个真正能落地的视觉锚点 |
| 身份漂移 | 没有保护脸、产品或构图 | 在结尾加约束句 |
| image-to-video 动得太乱 | 让整张图平均移动 | 明确告诉模型哪里先动,哪里保持平静 |
| 迭代方式混乱 | 每一轮都重写整段提示词 | 保留基础提示词,每轮只改一个变量 |
最好的工作流从来不是“第一次就写出完美提示词”,而是:
这样迭代,通常会比每一轮都推翻重来快得多。

这是整个工作流里最关键的实际决策之一。
| 目标 | 最适合的模式 | 原因 |
|---|---|---|
| 你还在从零探索画面 | /text-to-video | 概念还没锁定时最适合 |
| 你已经有了主视觉或关键帧 | /image-to-video | 视觉方向已确定,运动应该从现有图像生长出来 |
| 你要强一致性地保住人物、产品或道具 | 视频工作流中的 reference images | 当连续性比自由探索更重要时更适合 |
这里还有一个很实际的判断:reference-image 工作流确实能提升一致性,但它也会带来更强的约束,而且文档里给出的时长上限更短。所以,只有当“连续性漂移”真的是核心问题时,再切到参考图驱动模式。
这个关键词不是纯信息型词,它也带有明显的转化意图。很多搜索 Grok Imagine 提示词 的用户,离真正打开工作流去试,已经非常近了。
所以这篇文章不能只停留在“原理解释”,还要把读者尽快推向三个真实动作之一:
因此,最顺的下一步路径,就是直接打开专门的 Grok Imagine workflow,然后根据当前状态分流:
/text-to-video/image-to-video如果你想更稳定地写出有效提示词,可以每次都按下面的顺序来:
原因很简单:Grok Imagine 最强的地方,本来就不是一次性写满所有要求,而是把它当成一个快速、短视频导向的创意迭代循环。真正重要的不是“第一版写得有多复杂”,而是你是否建立了一份足够稳定、可控、可迭代的提示词底稿。
最有效的提示词,通常会同时写清主体、一个主动作、镜头方向、场景、视觉基调、声音以及一条稳定性规则。这种结构通常比松散关键词更可靠。
长到足以控制镜头,短到不会打乱层级。实际使用里,一个紧凑段落通常比一大段多场景提示词更稳。
如果声音对这个场景重要,就应该写。短广告、社媒钩子、产品 reveal 和氛围片段,在第一版就带有声音方向时,会更容易判断是否可用。
不一定。image-to-video 更适合已经有视觉锚点的情况;text-to-video 更适合你还在探索概念的时候。
保护那些不能被改动的部分。最后加一句,明确要求脸、产品、构图或节奏保持稳定。之后每轮只改一个变量。
试图把太多故事塞进一个短片里。AI 短视频提示词最适合瞄准一个清晰、能被发布或测试的单一节拍。
最好的 Grok Imagine 提示词,追求的不是复杂,而是清晰。
如果你只记住一套公式,那就记这套:主体 + 动作 + 镜头 + 场景 + 风格 + 声音 + 约束。
仅靠这一套结构,通常就足以把一个模糊的短视频想法,变成一个更有方向感、更容易测试、也更接近实际可用结果的提示词。