Pixal3D:腾讯开源图生 3D 项目
AI 生成 3D 和 2D 生图看起来都叫"生成",但难点完全不是一回事。2D 图只要当前画面成立就行;3D 资产还要过结构、视角一致性、几何连续性、贴图质量和后续可编辑性这几关。今天在一个角度看着像样,换个角度或者一进建模软件,问题就可能全冒出来。
看 3D 生成项目,关键是两件事:输出是不是一个可继续处理的 3D 资产,以及它和输入图的对应关系保不保得住。
Pixal3D 值得看,就是因为它把重点放在了这件事上。
TencentARC/Pixal3D:它到底在解决什么问题
GitHub:https://github.com/TencentARC/Pixal3D 论文:https://arxiv.org/abs/2605.10922 Demo:https://huggingface.co/spaces/TencentARC/Pixal3D 项目页:https://ldyang694.github.io/projects/pixal3d/
TencentARC/Pixal3D 的项目标题就是 Pixal3D: Pixel-Aligned 3D Generation from Images。它瞄准的是单张图到高保真 3D 资产这条线,重点放在"给你一张图,尽量把图里的对象更稳地变成 3D"。
论文摘要把问题说得更清楚:过去 image-to-3D 已经能生成"看起来像 3D"的东西,但 fidelity 还是差一口气。这里的 fidelity 不是泛泛的"质量高",而是输入图像和生成 3D 资产之间的像素级对应关系是否够准。
作者给出的判断是:很多 3D-native 生成器还是先在 canonical pose 里做生成,再用 attention 注入图像特征,这一步天然容易把 2D 和 3D 的精确对应关系冲淡。Pixal3D 走的是另一条路:不先把物体丢进一个统一姿态里,而是直接围绕输入视角做 pixel-aligned generation,再通过 pixel back-projection 把多尺度图像特征抬到 3D feature volume 里。
这就是它名字里 Pixel-Aligned 的由来。它把重点放在 3D 和输入图的对应关系上,不满足于只做一个"看起来像 3D"的结果。
版本线索
这个仓库有两条版本线,分开看:
- 当前
main分支:更新后的版本,基于TRELLIS.2,主打推理效果提升; paper分支:对应论文版Direct3D-S2。
你如果只是想跟着现在的仓库跑结果,看 main 就行;如果你是读论文、复现实验或想严格对齐论文实现,再去看 paper 分支。
这类信息值得写出来,因为很多人第一次碰科研仓库时最容易踩的坑,就是默认"仓库当前代码 = 论文里那版代码"。Pixal3D 已经把这两条线拆开了,照着分支说明走就行。
输入和输出:它服务的是 image-to-3D 这条链路
从仓库、论文标题和项目页看,Pixal3D 当前最明确的主任务是 from images。也就是说,它的核心输入是图片,而不是纯文本 prompt。
更具体一点,正文里能稳写的输入 / 输出范围是:
输入
- 单张输入图像,是当前仓库最明确的主入口;
- 论文摘要还提到它可扩展到 multi-view generation,这属于方法外延,不应写成仓库当前的默认使用入口。
输出
基础推理流程最终会导出 GLB 网格文件。对多数读者来说,这一点很重要,因为它说明输出不是单纯的 2D 预览,而是一个能被 3D 工具继续读取的资产格式。
当然,导出 GLB 不等于"资产已经能直接进生产"。你后面还得看拓扑、贴图和编辑需求,但至少它已经迈过了"只是生成一组看图"的那道门槛。
安装和环境:仓库给了能跑通的最短路径
Pixal3D 的安装步骤不算花哨,基本思路就是标准科研仓库流程:
- 克隆仓库;
- 创建 Python 环境;
- 安装依赖;
- 下载权重;
- 运行推理脚本。
仓库给出的示例环境是 Python 3.12,安装命令使用 uv:
git clone https://github.com/TencentARC/Pixal3D.git
cd Pixal3D
uv venv --python 3.12
source .venv/bin/activate
uv pip install --upgrade pip
uv pip install -r requirements.txt环境里还要补 flash-attn:
uv pip install flash-attn --no-build-isolation然后下载权重:
mkdir -p ckpts
huggingface-cli download TencentARC/Pixal3D --local-dir ckpts这里有两个现实提醒。
第一,flash-attn 这类依赖对 CUDA、PyTorch、编译环境比较挑,不是所有机器都能一步装过。这一步不要当成"复制即用"。
第二,Hugging Face 模型页当前标了 24 GB,这至少说明它不是一类随便拿轻薄本就能跑得很顺的项目。官方没有把这个值写成通用最低显存要求,这里更稳妥的写法是:模型页有 24 GB 标记,本地运行通常要准备更充足的 GPU 资源。
怎么跑:从图片到 GLB 的基础流程
最小推理命令是:
python app.py \
--image assets/example_image.png \
--output_dir outputs运行完成后,结果会输出为:
outputs/example_image/example_image.glb这条路径已经把它的基本工作流讲清楚了:
- 你准备一张输入图;
- 指定输出目录;
- 跑推理;
- 拿到一个
GLB文件。
如果你只是想判断这个项目值不值得继续折腾,拿官方示例图跑通一次,比直接扔自己的复杂资产更有意义。这样至少能确认:
- 环境能不能装起来;
- 权重能不能下载到位;
- 推理能不能顺利结束;
- 输出资产能不能被你的查看工具打开。
项目页里主要看什么
Pixal3D 的项目页做得很完整,Paper、arXiv、Demo、Model、Code、Video 入口都放在一起。更值得停下来看的是两个部分。
1. Results / Comparisons
项目页有 textured 和 geometry 两类展示,还把 Pixal3D 和 TRELLIS 2、Hunyuan3D 2.1 等方法放在一起对比。这个设计很有用,因为它逼你同时看两件事:
- 贴图看起来像不像;
- 几何结构本身稳不稳。
很多 3D 生成项目只放一组光影和材质都处理好的渲染图,你很难判断几何底子到底怎么样。Pixal3D 至少把这个问题摊开了。
2. Method
项目页把方法拆成三段:
- Pixel-Aligned Structured Latent Representation Learning
- Image Back-Projection-based Conditioner
- Two-stage generative process
这三段刚好对应它要补的三处短板:
- 把 latent 表示和输入图对齐;
- 再用 back-projection 显式建立 2D 到 3D 的特征映射;
- 再分阶段做生成。
你不一定要把论文读到每个算子都懂,但至少要知道重点不在"堆更大模型",而是在 2D-3D correspondence 这个老问题上换了一种更明确的条件注入方法。
生成后要检查什么
1. 拓扑和几何完整性
导出了 GLB 只是起点。你后面如果要进 Blender、Unity、Unreal 或建模软件继续处理,最先检查的是网格有没有明显破面、粘连、结构缺失或视角不一致。
2. 贴图是否只在主视角好看
image-to-3D 很常见的问题是:正面很好,侧面一转就露馅。Pixal3D 本来就在打 fidelity 这件事,所以实际使用时更应该拿它去看角度一致性,而不是只截一张最好看的封面图。
3. 可编辑性
原型阶段你只看渲染图,问题不大;一旦要进入项目,就要问:
- 后续能不能改材质?
- 能不能简化网格?
- 能不能重拓扑?
- 贴图展开是否还能继续修?
这一步决定它在你的流程里是"最终资产"还是"资产草稿"。对现阶段多数 3D 生成项目来说,后者更现实。
4. 商用版权和输入素材问题
Pixal3D 是开源仓库,不等于你拿任何输入图去生成都没有版权问题。你如果拿带商标、角色 IP、商业摄影图或第三方作品做输入,输出资产能不能使用,仍然要自己判断。开源的是工具,不是输入图的授权。
5. 生成失败和期望管理
3D 生成比 2D 生图更脆。输入图如果遮挡太多、结构不清、反光复杂、轮廓不完整,生成结果就更容易崩。不要把一次不理想结果立刻理解成"仓库没用",也不要把一次看起来不错的结果直接理解成"已经能替代 3D 美术"。
使用场景
Pixal3D 可以放在这几个位置上看:
实验和研究验证
如果你本来就在看 image-to-3D、3D representation 或多视图生成,这个项目值得读。它的论文和项目页都把"为什么要做 pixel-aligned"讲得比较集中,研究导向很强。
原型和概念验证
如果你手里有一张产品图、角色概念图或对象参考图,可以拿它出一个 3D 草稿,看看整体方向。
资产草稿
对独立开发、交互演示、快速搭场景的人来说,能拿到一个可看的 GLB 草稿就已经很有用。后面要不要继续修,再看项目需要。
它还不能替代完整 3D 美术流程
Pixal3D 很值得看,但它目前还是把 image-to-3D 往前推进了一步的生成项目,还谈不上"从此可以跳过 3D 美术"。
你如果要的是:
- 高保真概念还原;
- 快速生成可继续编辑的网格;
- 更稳的主视角对应关系;
它很有参考价值。
你如果要的是:
- 直接进 production 的成熟资产;
- 全流程稳定、可控、可批量复用的 3D 生产线;
- 完全替代建模、重拓扑、材质和后期修整;
那它现在还不是这个阶段。
把它放在 实验工具、原型工具、资产草稿工具 这几个位置,会更稳妥。硬把它吹成完整替代方案,反而容易把话说虚。