Pixal3D：腾讯开源图生 3D 项目

AI 生成 3D 和 2D 生图看起来都叫"生成"，但难点完全不是一回事。2D 图只要当前画面成立就行；3D 资产还要过结构、视角一致性、几何连续性、贴图质量和后续可编辑性这几关。今天在一个角度看着像样，换个角度或者一进建模软件，问题就可能全冒出来。

看 3D 生成项目，关键是两件事：输出是不是一个可继续处理的 3D 资产，以及它和输入图的对应关系保不保得住。

Pixal3D 值得看，就是因为它把重点放在了这件事上。

TencentARC/Pixal3D：它到底在解决什么问题

GitHub：https://github.com/TencentARC/Pixal3D 论文：https://arxiv.org/abs/2605.10922 Demo：https://huggingface.co/spaces/TencentARC/Pixal3D 项目页：https://ldyang694.github.io/projects/pixal3d/

TencentARC/Pixal3D 的项目标题就是 Pixal3D: Pixel-Aligned 3D Generation from Images。它瞄准的是单张图到高保真 3D 资产这条线，重点放在"给你一张图，尽量把图里的对象更稳地变成 3D"。

论文摘要把问题说得更清楚：过去 image-to-3D 已经能生成"看起来像 3D"的东西，但 fidelity 还是差一口气。这里的 fidelity 不是泛泛的"质量高"，而是输入图像和生成 3D 资产之间的像素级对应关系是否够准。

作者给出的判断是：很多 3D-native 生成器还是先在 canonical pose 里做生成，再用 attention 注入图像特征，这一步天然容易把 2D 和 3D 的精确对应关系冲淡。Pixal3D 走的是另一条路：不先把物体丢进一个统一姿态里，而是直接围绕输入视角做 pixel-aligned generation，再通过 pixel back-projection 把多尺度图像特征抬到 3D feature volume 里。

这就是它名字里 Pixel-Aligned 的由来。它把重点放在 3D 和输入图的对应关系上，不满足于只做一个"看起来像 3D"的结果。

版本线索

这个仓库有两条版本线，分开看：

当前 main 分支：更新后的版本，基于 TRELLIS.2，主打推理效果提升；
paper 分支：对应论文版 Direct3D-S2。

你如果只是想跟着现在的仓库跑结果，看 main 就行；如果你是读论文、复现实验或想严格对齐论文实现，再去看 paper 分支。

这类信息值得写出来，因为很多人第一次碰科研仓库时最容易踩的坑，就是默认"仓库当前代码 = 论文里那版代码"。Pixal3D 已经把这两条线拆开了，照着分支说明走就行。

输入和输出：它服务的是 image-to-3D 这条链路

从仓库、论文标题和项目页看，Pixal3D 当前最明确的主任务是 from images。也就是说，它的核心输入是图片，而不是纯文本 prompt。

更具体一点，正文里能稳写的输入 / 输出范围是：

输入

单张输入图像，是当前仓库最明确的主入口；
论文摘要还提到它可扩展到 multi-view generation，这属于方法外延，不应写成仓库当前的默认使用入口。

输出

基础推理流程最终会导出 GLB 网格文件。对多数读者来说，这一点很重要，因为它说明输出不是单纯的 2D 预览，而是一个能被 3D 工具继续读取的资产格式。

当然，导出 GLB 不等于"资产已经能直接进生产"。你后面还得看拓扑、贴图和编辑需求，但至少它已经迈过了"只是生成一组看图"的那道门槛。

安装和环境：仓库给了能跑通的最短路径

Pixal3D 的安装步骤不算花哨，基本思路就是标准科研仓库流程：

克隆仓库；
创建 Python 环境；
安装依赖；
下载权重；
运行推理脚本。

仓库给出的示例环境是 Python 3.12，安装命令使用 uv：

Bash

git clone https://github.com/TencentARC/Pixal3D.git
cd Pixal3D
uv venv --python 3.12
source .venv/bin/activate
uv pip install --upgrade pip
uv pip install -r requirements.txt

环境里还要补 flash-attn：

Bash

uv pip install flash-attn --no-build-isolation

然后下载权重：

Bash

mkdir -p ckpts
huggingface-cli download TencentARC/Pixal3D --local-dir ckpts

这里有两个现实提醒。

第一，flash-attn 这类依赖对 CUDA、PyTorch、编译环境比较挑，不是所有机器都能一步装过。这一步不要当成"复制即用"。

第二，Hugging Face 模型页当前标了 24 GB，这至少说明它不是一类随便拿轻薄本就能跑得很顺的项目。官方没有把这个值写成通用最低显存要求，这里更稳妥的写法是：模型页有 24 GB 标记，本地运行通常要准备更充足的 GPU 资源。

怎么跑：从图片到 GLB 的基础流程

最小推理命令是：

Bash

python app.py \
  --image assets/example_image.png \
  --output_dir outputs

运行完成后，结果会输出为：

Plain Text

outputs/example_image/example_image.glb

这条路径已经把它的基本工作流讲清楚了：

你准备一张输入图；
指定输出目录；
跑推理；
拿到一个 GLB 文件。

如果你只是想判断这个项目值不值得继续折腾，拿官方示例图跑通一次，比直接扔自己的复杂资产更有意义。这样至少能确认：

环境能不能装起来；
权重能不能下载到位；
推理能不能顺利结束；
输出资产能不能被你的查看工具打开。

项目页里主要看什么

Pixal3D 的项目页做得很完整，Paper、arXiv、Demo、Model、Code、Video 入口都放在一起。更值得停下来看的是两个部分。

1. Results / Comparisons

项目页有 textured 和 geometry 两类展示，还把 Pixal3D 和 TRELLIS 2、Hunyuan3D 2.1 等方法放在一起对比。这个设计很有用，因为它逼你同时看两件事：

贴图看起来像不像；
几何结构本身稳不稳。

很多 3D 生成项目只放一组光影和材质都处理好的渲染图，你很难判断几何底子到底怎么样。Pixal3D 至少把这个问题摊开了。

2. Method

项目页把方法拆成三段：

Pixel-Aligned Structured Latent Representation Learning
Image Back-Projection-based Conditioner
Two-stage generative process

这三段刚好对应它要补的三处短板：

把 latent 表示和输入图对齐；
再用 back-projection 显式建立 2D 到 3D 的特征映射；
再分阶段做生成。

你不一定要把论文读到每个算子都懂，但至少要知道重点不在"堆更大模型"，而是在 2D-3D correspondence 这个老问题上换了一种更明确的条件注入方法。

生成后要检查什么

1. 拓扑和几何完整性

导出了 GLB 只是起点。你后面如果要进 Blender、Unity、Unreal 或建模软件继续处理，最先检查的是网格有没有明显破面、粘连、结构缺失或视角不一致。

2. 贴图是否只在主视角好看

image-to-3D 很常见的问题是：正面很好，侧面一转就露馅。Pixal3D 本来就在打 fidelity 这件事，所以实际使用时更应该拿它去看角度一致性，而不是只截一张最好看的封面图。

3. 可编辑性

原型阶段你只看渲染图，问题不大；一旦要进入项目，就要问：

后续能不能改材质？
能不能简化网格？
能不能重拓扑？
贴图展开是否还能继续修？

这一步决定它在你的流程里是"最终资产"还是"资产草稿"。对现阶段多数 3D 生成项目来说，后者更现实。

4. 商用版权和输入素材问题

Pixal3D 是开源仓库，不等于你拿任何输入图去生成都没有版权问题。你如果拿带商标、角色 IP、商业摄影图或第三方作品做输入，输出资产能不能使用，仍然要自己判断。开源的是工具，不是输入图的授权。

5. 生成失败和期望管理

3D 生成比 2D 生图更脆。输入图如果遮挡太多、结构不清、反光复杂、轮廓不完整，生成结果就更容易崩。不要把一次不理想结果立刻理解成"仓库没用"，也不要把一次看起来不错的结果直接理解成"已经能替代 3D 美术"。

使用场景

Pixal3D 可以放在这几个位置上看：

实验和研究验证

如果你本来就在看 image-to-3D、3D representation 或多视图生成，这个项目值得读。它的论文和项目页都把"为什么要做 pixel-aligned"讲得比较集中，研究导向很强。

原型和概念验证

如果你手里有一张产品图、角色概念图或对象参考图，可以拿它出一个 3D 草稿，看看整体方向。

资产草稿

对独立开发、交互演示、快速搭场景的人来说，能拿到一个可看的 GLB 草稿就已经很有用。后面要不要继续修，再看项目需要。

它还不能替代完整 3D 美术流程

Pixal3D 很值得看，但它目前还是把 image-to-3D 往前推进了一步的生成项目，还谈不上"从此可以跳过 3D 美术"。

你如果要的是：

高保真概念还原；
快速生成可继续编辑的网格；
更稳的主视角对应关系；

它很有参考价值。

你如果要的是：

直接进 production 的成熟资产；
全流程稳定、可控、可批量复用的 3D 生产线；
完全替代建模、重拓扑、材质和后期修整；

那它现在还不是这个阶段。

把它放在 实验工具、原型工具、资产草稿工具 这几个位置，会更稳妥。硬把它吹成完整替代方案，反而容易把话说虚。

Pixal3D：腾讯开源图生 3D 项目 ​

TencentARC/Pixal3D：它到底在解决什么问题 ​

版本线索 ​

输入和输出：它服务的是 image-to-3D 这条链路 ​

输入 ​

输出 ​

安装和环境：仓库给了能跑通的最短路径 ​

怎么跑：从图片到 GLB 的基础流程 ​

项目页里主要看什么 ​

1. Results / Comparisons ​

2. Method ​

生成后要检查什么 ​

1. 拓扑和几何完整性 ​

2. 贴图是否只在主视角好看 ​

3. 可编辑性 ​

4. 商用版权和输入素材问题 ​

5. 生成失败和期望管理 ​

使用场景 ​

实验和研究验证 ​

原型和概念验证 ​

资产草稿 ​

它还不能替代完整 3D 美术流程 ​

Pixal3D：腾讯开源图生 3D 项目

TencentARC/Pixal3D：它到底在解决什么问题

版本线索

输入和输出：它服务的是 image-to-3D 这条链路

输入

输出

安装和环境：仓库给了能跑通的最短路径

怎么跑：从图片到 GLB 的基础流程

项目页里主要看什么

1. Results / Comparisons

2. Method

生成后要检查什么

1. 拓扑和几何完整性

2. 贴图是否只在主视角好看

3. 可编辑性

4. 商用版权和输入素材问题

5. 生成失败和期望管理

使用场景

实验和研究验证

原型和概念验证

资产草稿

它还不能替代完整 3D 美术流程