Skip to content

    Pixal3D:腾讯开源图生 3D 项目

    AI 生成 3D 和 2D 生图看起来都叫"生成",但难点完全不是一回事。2D 图只要当前画面成立就行;3D 资产还要过结构、视角一致性、几何连续性、贴图质量和后续可编辑性这几关。今天在一个角度看着像样,换个角度或者一进建模软件,问题就可能全冒出来。

    看 3D 生成项目,关键是两件事:输出是不是一个可继续处理的 3D 资产,以及它和输入图的对应关系保不保得住。

    Pixal3D 值得看,就是因为它把重点放在了这件事上。

    TencentARC/Pixal3D:它到底在解决什么问题

    GitHub:https://github.com/TencentARC/Pixal3D 论文:https://arxiv.org/abs/2605.10922 Demo:https://huggingface.co/spaces/TencentARC/Pixal3D 项目页:https://ldyang694.github.io/projects/pixal3d/

    TencentARC/Pixal3D 的项目标题就是 Pixal3D: Pixel-Aligned 3D Generation from Images。它瞄准的是单张图到高保真 3D 资产这条线,重点放在"给你一张图,尽量把图里的对象更稳地变成 3D"。

    论文摘要把问题说得更清楚:过去 image-to-3D 已经能生成"看起来像 3D"的东西,但 fidelity 还是差一口气。这里的 fidelity 不是泛泛的"质量高",而是输入图像和生成 3D 资产之间的像素级对应关系是否够准

    作者给出的判断是:很多 3D-native 生成器还是先在 canonical pose 里做生成,再用 attention 注入图像特征,这一步天然容易把 2D 和 3D 的精确对应关系冲淡。Pixal3D 走的是另一条路:不先把物体丢进一个统一姿态里,而是直接围绕输入视角做 pixel-aligned generation,再通过 pixel back-projection 把多尺度图像特征抬到 3D feature volume 里。

    这就是它名字里 Pixel-Aligned 的由来。它把重点放在 3D 和输入图的对应关系上,不满足于只做一个"看起来像 3D"的结果。

    版本线索

    这个仓库有两条版本线,分开看:

    • 当前 main 分支:更新后的版本,基于 TRELLIS.2,主打推理效果提升;
    • paper 分支:对应论文版 Direct3D-S2

    你如果只是想跟着现在的仓库跑结果,看 main 就行;如果你是读论文、复现实验或想严格对齐论文实现,再去看 paper 分支。

    这类信息值得写出来,因为很多人第一次碰科研仓库时最容易踩的坑,就是默认"仓库当前代码 = 论文里那版代码"。Pixal3D 已经把这两条线拆开了,照着分支说明走就行。

    输入和输出:它服务的是 image-to-3D 这条链路

    从仓库、论文标题和项目页看,Pixal3D 当前最明确的主任务是 from images。也就是说,它的核心输入是图片,而不是纯文本 prompt。

    更具体一点,正文里能稳写的输入 / 输出范围是:

    输入

    • 单张输入图像,是当前仓库最明确的主入口;
    • 论文摘要还提到它可扩展到 multi-view generation,这属于方法外延,不应写成仓库当前的默认使用入口。

    输出

    基础推理流程最终会导出 GLB 网格文件。对多数读者来说,这一点很重要,因为它说明输出不是单纯的 2D 预览,而是一个能被 3D 工具继续读取的资产格式。

    当然,导出 GLB 不等于"资产已经能直接进生产"。你后面还得看拓扑、贴图和编辑需求,但至少它已经迈过了"只是生成一组看图"的那道门槛。

    安装和环境:仓库给了能跑通的最短路径

    Pixal3D 的安装步骤不算花哨,基本思路就是标准科研仓库流程:

    1. 克隆仓库;
    2. 创建 Python 环境;
    3. 安装依赖;
    4. 下载权重;
    5. 运行推理脚本。

    仓库给出的示例环境是 Python 3.12,安装命令使用 uv

    Bash
    git clone https://github.com/TencentARC/Pixal3D.git
    cd Pixal3D
    uv venv --python 3.12
    source .venv/bin/activate
    uv pip install --upgrade pip
    uv pip install -r requirements.txt

    环境里还要补 flash-attn

    Bash
    uv pip install flash-attn --no-build-isolation

    然后下载权重:

    Bash
    mkdir -p ckpts
    huggingface-cli download TencentARC/Pixal3D --local-dir ckpts

    这里有两个现实提醒。

    第一,flash-attn 这类依赖对 CUDA、PyTorch、编译环境比较挑,不是所有机器都能一步装过。这一步不要当成"复制即用"。

    第二,Hugging Face 模型页当前标了 24 GB,这至少说明它不是一类随便拿轻薄本就能跑得很顺的项目。官方没有把这个值写成通用最低显存要求,这里更稳妥的写法是:模型页有 24 GB 标记,本地运行通常要准备更充足的 GPU 资源。

    怎么跑:从图片到 GLB 的基础流程

    最小推理命令是:

    Bash
    python app.py \
      --image assets/example_image.png \
      --output_dir outputs

    运行完成后,结果会输出为:

    Plain Text
    outputs/example_image/example_image.glb

    这条路径已经把它的基本工作流讲清楚了:

    • 你准备一张输入图;
    • 指定输出目录;
    • 跑推理;
    • 拿到一个 GLB 文件。

    如果你只是想判断这个项目值不值得继续折腾,拿官方示例图跑通一次,比直接扔自己的复杂资产更有意义。这样至少能确认:

    • 环境能不能装起来;
    • 权重能不能下载到位;
    • 推理能不能顺利结束;
    • 输出资产能不能被你的查看工具打开。

    项目页里主要看什么

    Pixal3D 的项目页做得很完整,Paper、arXiv、Demo、Model、Code、Video 入口都放在一起。更值得停下来看的是两个部分。

    1. Results / Comparisons

    项目页有 textured 和 geometry 两类展示,还把 Pixal3D 和 TRELLIS 2Hunyuan3D 2.1 等方法放在一起对比。这个设计很有用,因为它逼你同时看两件事:

    • 贴图看起来像不像;
    • 几何结构本身稳不稳。

    很多 3D 生成项目只放一组光影和材质都处理好的渲染图,你很难判断几何底子到底怎么样。Pixal3D 至少把这个问题摊开了。

    2. Method

    项目页把方法拆成三段:

    1. Pixel-Aligned Structured Latent Representation Learning
    2. Image Back-Projection-based Conditioner
    3. Two-stage generative process

    这三段刚好对应它要补的三处短板:

    • 把 latent 表示和输入图对齐;
    • 再用 back-projection 显式建立 2D 到 3D 的特征映射;
    • 再分阶段做生成。

    你不一定要把论文读到每个算子都懂,但至少要知道重点不在"堆更大模型",而是在 2D-3D correspondence 这个老问题上换了一种更明确的条件注入方法。

    生成后要检查什么

    1. 拓扑和几何完整性

    导出了 GLB 只是起点。你后面如果要进 Blender、Unity、Unreal 或建模软件继续处理,最先检查的是网格有没有明显破面、粘连、结构缺失或视角不一致。

    2. 贴图是否只在主视角好看

    image-to-3D 很常见的问题是:正面很好,侧面一转就露馅。Pixal3D 本来就在打 fidelity 这件事,所以实际使用时更应该拿它去看角度一致性,而不是只截一张最好看的封面图。

    3. 可编辑性

    原型阶段你只看渲染图,问题不大;一旦要进入项目,就要问:

    • 后续能不能改材质?
    • 能不能简化网格?
    • 能不能重拓扑?
    • 贴图展开是否还能继续修?

    这一步决定它在你的流程里是"最终资产"还是"资产草稿"。对现阶段多数 3D 生成项目来说,后者更现实。

    4. 商用版权和输入素材问题

    Pixal3D 是开源仓库,不等于你拿任何输入图去生成都没有版权问题。你如果拿带商标、角色 IP、商业摄影图或第三方作品做输入,输出资产能不能使用,仍然要自己判断。开源的是工具,不是输入图的授权。

    5. 生成失败和期望管理

    3D 生成比 2D 生图更脆。输入图如果遮挡太多、结构不清、反光复杂、轮廓不完整,生成结果就更容易崩。不要把一次不理想结果立刻理解成"仓库没用",也不要把一次看起来不错的结果直接理解成"已经能替代 3D 美术"。

    使用场景

    Pixal3D 可以放在这几个位置上看:

    实验和研究验证

    如果你本来就在看 image-to-3D、3D representation 或多视图生成,这个项目值得读。它的论文和项目页都把"为什么要做 pixel-aligned"讲得比较集中,研究导向很强。

    原型和概念验证

    如果你手里有一张产品图、角色概念图或对象参考图,可以拿它出一个 3D 草稿,看看整体方向。

    资产草稿

    对独立开发、交互演示、快速搭场景的人来说,能拿到一个可看的 GLB 草稿就已经很有用。后面要不要继续修,再看项目需要。

    它还不能替代完整 3D 美术流程

    Pixal3D 很值得看,但它目前还是把 image-to-3D 往前推进了一步的生成项目,还谈不上"从此可以跳过 3D 美术"。

    你如果要的是:

    • 高保真概念还原;
    • 快速生成可继续编辑的网格;
    • 更稳的主视角对应关系;

    它很有参考价值。

    你如果要的是:

    • 直接进 production 的成熟资产;
    • 全流程稳定、可控、可批量复用的 3D 生产线;
    • 完全替代建模、重拓扑、材质和后期修整;

    那它现在还不是这个阶段。

    把它放在 实验工具、原型工具、资产草稿工具 这几个位置,会更稳妥。硬把它吹成完整替代方案,反而容易把话说虚。