豆包AI 视频 自动标签
# 豆包AI 视频 自动标签
# 测试模型
AI体验中心-火山引擎-Doubao-1.5-thinking-vision-pro (opens new window)
# 测试方法:
1. 火山引擎的 AI体验页面,本地上传视频。
2. 使用 火山引擎的 API 接入,将视频上传至TOS存储桶。
# • 网页结果比API 效果更好
◦ 同一个视频,相同prompt 等参数下,火山引擎的AI 体验页面输出效果最佳。
◦ 而使用API 接入,输出的 推理结果明显比网页上的要差。
◦ 这事问过客服,也提交了测试视频和提示词,客服无法解答为什么效果不一样,他们也在测试。
◦ 比对效果,可看【测试B】.
◦ 页面上支持上传webp 动图,API不支持webp ,始终被识别为静态图片。
# • 无法保持稳定的高质量输出
同一个视频和提示,重复多次,输出的推理结果优劣差异较大,武器标签和动作标签不准确,但是动作和外观描述质量可保持稳定。
# • 无法准确识别出动作类型
仅提供视频让大模型识别推理,它不知道这个动作在干嘛,可能被识别为跳舞或者什么,
- 交互的休闲道具被识别成武器,休闲动作被识别攻击动作。
- 女性法术的攻击,被识别成舞蹈动作。
# 提示词
从测试的视频来,输出的描述质量非常高,想请大家集思广益,看是否还有其他维度补充,让AI描述更准确,或者说大家对动作视频关心的重点是否体现在这 4 个维度上,有其他想法,欢迎留言。
提示
📌我是游戏动画师,请帮我从动作分类,种族物种,武器类型,角色属性这些角度给这个角色打标签。
从实际测试来看,先自己写一段提示词,然后用大模型对提示进行结构优化和补充,这样出来的结果更准确。
# AI 补充的提示词
最终提示词
假如你是一位专业的游戏视频标签分析师,你将根据用户提供的游戏视频内容,来解决为该视频从动作分类、种族物种、武器类型、角色属性这些角度打标签的任务。 根据以下规则一步步执行:
- 对动作分类要详细描述攻击方式、方向等相关细节。
- 对武器类型要描述武器外观等相关细节。
- 对种族物种要描述外貌特征。
- 对角色属性要说明战士/侠客等定位以及动作所展现出的力量感与战斗连贯性等特点。
参考例子: 示例1: {视频内容:角色为人类男性,使用大刀进行向前挥砍的攻击动作,外观是一把宽阔且带有锯齿的大刀,角色定位为近战输出型战士,动作有力且流畅} 输出: { "动作分类": "战斗动作:向前挥砍攻击,攻击方向为正前方", "武器类型": "大刀:外观宽阔且带有锯齿", "种族物种": "人类男:外貌特征为正常人类男性模样", "角色属性": "近战输出型:战士定位,动作展现力量感" } 示例2: {视频内容:视频中呈现的主体是一只狼形生物,其外貌特征为周身覆盖尖刺状毛发,尾部修长且灵动。画面初始,该生物处于空中,呈向下方扑跃的姿态;随时间推进,它迅速完成 “空中俯冲→四肢触地支撑→落地后身体姿态调整” 的连贯动作流程 —— 触地时四肢稳健承接身体重量,落地后通过身体重心转移、尾部摆动等细节,展现出从 “扑跃冲击” 到 “稳定姿态” 的自然过渡。背景为简洁的灰色调,地面设置方形网格平台,使狼形生物的动作成为视觉核心,整套动作既体现出扑跃时的爆发力,又通过落地后姿态调整的细节,传递出生物运动的力学逻辑与灵动特质} 输出: { "动作分类": "跳跃动画:垂直方向跃起后落地的移动动作,落地后进入低伏身体、头部抬起观察、尾巴自然摆动保持平衡的警戒待机循环动作,展现生物的机动性与战斗警觉性", "武器类型": "无武器:以自身肢体(锋利的爪部用于扑击抓挠、牙齿用于撕咬)作为战斗时的攻击载体", "种族物种": "狼:四足行走的狼形生物,体表覆盖尖锐鬃毛(或类似尖刺的毛发结构),头部有突出尖角,前肢具锋利利爪", "角色属性": "近战突袭怪物:定位为近战突袭类怪物角色,动作中跳跃的爆发力展现出较强的冲击力量感,落地后快速衔接警戒姿态体现战斗连贯性,突出其作为野外高机动性、高警觉性敌人的特性" } 请回答问题: {视频内容:XXX} 输出:
要求: 1 输出使用json格式。 2 保留描述细节,中文。
# SVN 动画库

豆包 : 调研 火山引擎的 豆包大模型 给视频生成描述。
保存 : 保存 用户输入的描述内容修改。
# 测试案例视频
# 1
# 输出
以下是从 动作分类、种族物种、武器类型、角色属性 四个维度为该角色打的标签,结合动画表现与风格化特征解析:
# 1. 动作分类
- 核心标签:舞蹈/仪式动作(角色动作流畅且具韵律感,姿态轻盈飘逸,更偏向「展示性舞蹈」或「祭祀仪式动作」,无明显战斗攻击姿态)
- 补充标签:循环动画(动作序列有重复性,符合游戏内「待机/展示类循环动作」逻辑)
# 2. 种族物种
- 核心标签:人形奇幻种族(角色具备人类体态,但服饰、头饰、风格化设计(如夸张裙摆、尖顶帽)指向「幻想世界观」设定)
- 风格化延伸:巫女/灵侍(结合「灯笼法器」「飘逸服饰」「仪式感动作」,可关联日式/东方幻想中的「巫女」「灵媒」等神秘职种)
# 3. 武器类型
- 核心标签:灯笼法杖(角色持有的长杆道具为「灯笼」造型,兼具「仪式法器」与「法杖」功能,无明显物理攻击特征,偏向「魔法/灵力释放载体」)
- 功能延伸:仪式法器(道具设计更侧重「功能性象征」,如照明、通灵、增益buff释放)
# 4. 角色属性
- 核心标签:辅助型/魔法型(动作无攻击性,武器偏向「非物理输出」;结合「仪式感」「飘逸感」,推测定位为「治疗/增益/控场」的辅助向魔法角色)
- 气质延伸:祭祀/通灵者(从「灯笼法器」「仪式动作」的氛围感,强化「连接灵界/释放神秘力量」的属性)
# 2
资源中心SVN - 动作库 - 666合并龙.max (opens new window)
# 输出
以下是从 动作分类、种族物种、武器类型、角色属性 四个维度为该角色定制的标签,结合动画中「御剑+化龙」的核心表现与东方仙侠风格解析:
# 1. 动作分类
- 核心标签:战斗技能动画(大招/必杀技)
- 细分特征:御剑操控动作(多剑悬浮/联动) + 灵技(龙形)联动特效(剑与龙形态转化、技能前后摇的连贯性)
# 2. 种族物种
- 核心标签:人形(东方武侠/仙侠风格)
- 风格延伸:剑修/修仙者(依托「长袍束发+御剑术」的视觉符号,指向东方幻想世界观中「剑仙门派/修仙体系」的职业向种族设定)
# 3. 武器类型
- 核心标签:御剑术(群体性飞剑)
- 机制延伸:法宝化灵刃(剑具备「灵体化」特征——可转化为龙形释放技能,且支持多剑同时操控的「法术型武器」逻辑)
# 4. 角色属性
- 核心标签:爆发型法术输出
- 定位延伸:剑仙(高伤害/控场) + 主C定位(技能视觉重心、多剑+化龙的大范围/高张力表现,暗示实战中承担核心输出职责)
这些标签既锚定了动画中「御剑→化龙→收招」的动作逻辑,也兼容东方仙侠题材「剑修/法宝/灵技」的世界观叙事,能为后续「技能数值设计、美术风格统一、职业定位强化」提供明确的标签化参考
# 3.
资源中心SVN - 动作库 - 104.max (opens new window)
# 输出
以下是从 动作分类、种族物种、武器类型、角色属性 四个维度为该角色定制的标签,结合动画中「重剑 + 力量型攻击」的核心表现与暗黑 / 奇幻风格解析:
# 1. 动作分类
- 核心标签:技能动画(重型武器必杀技 / 连招段)
- 细分特征:近战爆发攻击(动作幅度大、蓄力 - 下劈 - 收招的力量感循环,更偏向「技能释放」而非普通平 A,突出 “重型武器的打击张力”)
# 2. 种族物种
- 核心标签:人形(奇幻重装战士种族)
- 风格延伸:铠甲化战士(全身覆盖夸张铠甲 + 披风,脱离现实人类特征,指向「魔幻世界观下的改造人 / 异化战士」或「传统奇幻种族(如人类 / 半兽人)的重装分支」)
# 3. 武器类型
- 核心标签:重型双手剑(力量型近战劈砍武器)
- 机制延伸:巨刃 / 斩舰刀型(武器尺寸远超常规剑,强调「范围劈砍 + 破甲 / 击飞」的重型武器战斗逻辑,攻击慢但伤害 / 威慑力极强)
# 4. 角色属性
- 核心标签:高爆发近战输出 + 重装前排(双定位)
- 定位逻辑:重型武器→高伤害 / 破甲(输出向) + 铠甲 / 体型→承伤 / 控场(前排向),动作的 “力量碾压感” 同时支撑「爆发斩杀」与「阵地压制」两种战斗定位
这些标签既锚定了动画中「重剑挥砍 + 铠甲张力」的视觉特征,也兼容「重型武器→职业机制→属性定位」的游戏设计逻辑,能为后续「技能数值规划、美术风格强化、职业差异化塑造」提供明确的标签化参考
