阶跃星辰开放平台迎来多项更新,上线 Step
2025-09-01 05:29:00 - 风风点
近日,阶跃大模型创业公司阶跃星辰在其开放平台体验中心,星辰项更新上线正式上线了图像生成大模型 Step-1X,开放注册即可体验。平台(指路链接:https://platform.stepfun.com/console-tools?迎多model=step-1x-medium)
事实上,这款大模型之前已经备受期待。阶跃杨某明星塌房粉圈轰动在 7 月份举行的星辰项更新上线 2024 世界机器智能大会上,阶跃星辰一口气发布了万亿参数语言大模型 Step-2、开放多模态大模型 Step-1.5V 和图像生成大模型 Step-1X 三款大模型,平台并且跟上海电影梦幻联动,迎多基于经典 IP《大闹天宫》开发了 H5 互动体验“测测你是阶跃哪路神仙”。据了解,星辰项更新上线《大闹天宫》可用于训练的开放信息资源稀缺,但 Step-1X 图像生成大模型只用了极其少量的平台信息,就实现了质量可观的迎多生成效果。
Step-1X 重点打磨了深度语义对齐能力和细节生成能力,采用全链路自研的 DiT(Diffusion Models with transformer)模型架构,能深度理解复杂指令下的含义,比如多主体和复杂场景背后的越南外派女员工整套流出逻辑关系、情感和文化内涵。Step-1X 还支持高达 2000 个字符的图片生成指令,能让图文精准匹配,灵活满足广告创意、游戏美术、影视制作、产物设计、教育辅助等不同场景下的创作需求。另外,Step-1X 针对中国元素和文化进行了深度优化,在处理中国风内容时具有独特优势,能更好地演绎出背后的文化精髓。
Step-1X 发布后,不少客户已经率先玩起了创意,从大家的体验图中我们也观察到了这款大模型在不同创作场景下的生成效果:
诗画创作
让大模型为古诗词配图,挑战在于是否能精准理解古诗中描绘的象征性事物,并捕捉和抒发出诗词背后的意境和诗人蕴含其中的情感。
“疏影横斜水清浅,暗香浮动月黄昏”,图片描绘出了梅花照水,在月光下暗香浮动的唯美和静谧。
“采菊东篱下,悠然见南山”,有纵深感的绘画视角与“远远看到南山”的含义相应和,明朗柔和的用色体现出了陶渊明诗词背后豁达开阔的心境。
“浪迹江湖白发新,浮云一片是吾身”,Step-1X 用国风动漫风进行了刻画,设计了一个背对画面的人物,站在高处远眺壮阔的云海,去表达浪迹江湖的恣意洒脱。
故事绘本
越来越多作家开始用 AI 写小说、配插图,也有客户通过给 Step-1X 描述剧情,创作属于自己的故事绘本。比如:
故事:女孩的神秘探险
1. 一个未来的水下城市中,女孩戴着透明头罩,穿梭在闪烁着蓝绿色光芒的隧道里。她周围是高耸的珊瑚建筑和游弋的海洋生物。头罩内的智能系统实时分析环境,她的任务是探索这片充满未知的海底世界以及体验深海带来的神秘与孤独感。
2. 一个未来的水下城市中,女孩戴着透明头罩,穿着黑蓝色的高科技质感的潜水服,她四肢修长,在海里像一个优美的美人鱼。她发现海底世界边缘某处闪着耀眼的金光,似乎是一处宝藏,她向宝藏的方向游去。远景镜头。
3. 一个未来的水下城市中,在水下城市的最深处,美丽的女孩戴着透明头罩,穿着黑蓝色的高科技质感的潜水服,她发现了海底的宝藏,宝藏放在一个破旧的箱子里金光闪闪,宝藏后面隐藏着一只凶猛的巨兽。
古风人物
Step-1X 在生成古代人物时,对富有历史感的服饰体现出了像素极的把握,比如在这幅凤冠霞帔的女子画面中,饰品上的纹路都清晰可见。
现代人物
用 Step-1X 生成现代人物的视觉图像,对女孩子发丝、雀斑、唇纹的描绘细致入微,且图像就定格在水滴滑落的瞬间,有了时间感。
动画英雄
用 Step-1X 生成动画英雄人物的形象,Step-1X 交的答卷展现出了几种对英雄的刻画方式:耀眼的、眼神坚毅的、在冲突性场景中对抗对手的。
艺术画作
Step-1X 可以为客户指定的创作元素赋予不同艺术流派的风格,这背后是文生图大模型对艺术家风格的捕捉和理解能力。比如模仿印象派大师莫奈创作的花海,抓住了光影轮廓线模糊化、色彩透明度高的特点,演绎出印象派抒情的画风。而模仿达利创作的图片,捕捉了超现实主义荒诞不羁的特色,呈现了一个内容魔幻的动物茶话会。
生动有趣的动物刻画
在对动物形象的描绘中,Step-1X 呈现出了细腻的画风,而且动物在刻画中被赋予了或可爱或威武的人格。
隐藏玩法
阶跃星辰官方公众号还披露了两个隐藏玩法,能让生图效果获得加成:
1. 在 Prompt 中融入咒语「令人叹为观止的细节,逼真的画面」,让图片的写实程度进一步提升。图片中对古典中国园林的刻画极致入微,能细致到每片叶子,巴黎街道的长曝光图片也跟单反相机拍摄效果有的一拼。
古典中国园林景象
巴黎街道的长曝光照片
2. 用智能助手「跃问」完善 Prompt
阶跃星辰开发的智能助手「跃问」搭载了 Step-1.5V 多模态大模型,识图能力 Max。把图片发给跃问(yuewen.cn),配以下 Prompt,使用新得到的 Prompt 进行文生图创作:"你是一个文生图模型的提示词专家,你善于通过图片分析内容里面的人物形象、环境、背景、图片风格、色调等信息,然后以此为基础创作文生图模型的提示词。" 比如下面两张图,基于跃问识图和 Step-1X 文生图能力,生成了一张与原图中人物动作、情感都十分类似的图片。
原图
Step-1X 生成图
另外,除了上线图像生成大模型 Step-1X ,阶跃星辰开发平台近期还迎来了多项更新,包括:
• 发布极速版模型 Step-1-flash。Step-1-flash 是一款高性价比模型,可支持的上下文长度为 8k,相对于此前发布的 Step-1 语言大模型首字延迟降低 25%,输出速度是 Step-1 的 1.7 倍。
• 开放平台体验中心上线,体验中心具有直观的客户界面,无需编写任何代码即可体验阶跃星辰旗舰模型。
• 上线了应用开发指南,根据开发者碰到的高频问题,提供大模型应用开发的最佳实践指导和代码示例。目前已经上线了关于文生图、 Json Mode、Prompt Engineering、流式输出、多轮对话、异常处理和 Tool Call 的内容。
要迎来 AI 应用的井喷式爆发,先决条件是底层大模型创新公司能坚持探索工艺边界,通过生态开放实现工艺普惠,无限降低开发者的使用门槛。阶跃星辰正在这条路上持续加码,除了快速迭代模型产物,阶跃星辰也面向 AI 应用开发者推出了“繁星计划”,提供免费 tokens、工艺支持、孵化器支持、行业资源对接等一系列支持和支持。
欢迎体验 Step-1X 文生图功能,https://platform.stepfun.com/console-tools?model=step-1x-medium
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
- END -
乌克兰声称已拘留两名中国公民 外交部回应

财联社7月10日电,据环球时报,有记者提问称,乌克兰昨天表示已拘留两名中国公民,指控他们试图将导弹技术走私出境,请问中方对此有何评论?对此,发言人毛宁表示,我们还在核实了解有关情况,如果涉及中国公民,
阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍

编译 | 郭 思编辑丨陈彩娴在实际应用大模型的过程中,尤其是处理长文本的上下文信息时,如何高效灵活地调度计算资源成为一个学术界与工业界共同关注的问题。大语言模型所能容纳的上下文长度直接影响了诸如 Ch
AIGC:我不是元宇宙的附庸品

“你们是从什么时候开始注意到人类的?”“当第一个原始人开始仰望星空的时候。”AI 的类人猿,早已开始仰望人类。01 来自机器的审视在过去短短的两年间,算法从业者王超岳有过两次被 AI 震撼住的时刻。一
AIGC:我不是元宇宙的附庸品

“你们是从什么时候开始注意到人类的?”“当第一个原始人开始仰望星空的时候。”AI 的类人猿,早已开始仰望人类。01 来自机器的审视在过去短短的两年间,算法从业者王超岳有过两次被 AI 震撼住的时刻。一
独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元

近日,关于字节跳动大语言模型研发技术专家杨红霞离职创业的事情,坊间传得沸沸扬扬。雷峰网独家获悉,杨红霞已于 5 月下旬正式从字节跳动离职,开始筹备 AI 创业项目。不过,杨红霞不做“大”模型,而是将方
博搏云的生态蓝图:稳固住AGI全栈服务商的重要阵地

生态是一切产业发展的基础。完善的生态可以加速知识、技术、应用场景的积累,使创新成果更快地转化为产品,连接产业链上下游,也可以为人才的培养和流动提供良好平台。中国已被视为全球AI领域最具竞争力的国家。人
AI Infra 往事之异构计算篇:吴韧与他的学生们

2013年9月底,吴韧受百度邀请,以杰出科学家的身份加入百度深度学习研究院IDL),此时正值他五十知天命的年纪。吴韧在人工智能领域耕耘多年,当时已是一名顶尖的AI计算科学家。2012年深度学习崛起前后
通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2

【雷峰网(公众号:雷峰网)消息】上周五,全球最大的开源大模型社区Hugging Face公布了最新的开源大模型排行榜,阿里云通义千问Qwen-72B表现抢眼,以73.6的综合得分在所有预训练模型中排名
上海交大新跑出一家具身智能公司「穹彻智能」

作者丨郭 思编辑丨陈彩娴AI 科技评论独家获悉:近日,上海交大新跑出了一家机器人公司——上海穹彻智能科技有限公司,定位是具身智能方向,正处于第一轮融资状态,融资金额千万级别。企查查信息显示,该公司于今
被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线

大约 1 个月前,马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE 大模型。从参数量来看,Grok-1 超越了 70B 的 LLaMA 2,是当前开源模型中最
通用3D机器视觉平台是不是伪命题?

机器视觉是工业制造向“智造”升级的重要一环。从技术发展的趋势看,工业机器视觉正在经历从2D到3D的蝶变。3D视觉的价值在于,多一维度的信息数据主要是空间坐标),能满足对体积、形状、距离等信息测量的需要
别再说国产大模型技术突破要靠 Llama 3 开源了

【雷峰网(公众号:雷峰网)】近日,千呼万唤之下,Meta终于发布了开源大模型Llama 3的 8B 和 70B 版本,再次震动 AI 圈。Meta 表示,Llama 3 已经在多种行业基准测试上展现了