使用Nuba扩展在Python中编写光线跟踪应用程序

光线跟踪是一种渲染算法，它可以通过模拟光如何传输以及与不同材质的交互来生成照片级真实感图像。如今，它被广泛应用于游戏开发、电影制作和物理模拟中，将图像带入生活。
然而，光线跟踪算法计算量大，需要在 gpu 上进行硬件加速才能实现实时性能。
为了利用光线跟踪的硬件功能，人们发明了各种工具链和语言来满足需要，例如 opengl 和着色语言。
通常，这些软件工具链的构建过程会给 python 开发人员带来重大挑战。为了减轻困难并为编写光线跟踪内核提供熟悉的环境， nvidia 为 pyoptix 开发了 numba 扩展。这种扩展使图形研究人员和应用程序开发人员能够减少从构思到实现的时间，并缩短每次迭代的开发周期。
在本文中，我将概述 nvidia 光线跟踪引擎 pyoptix ，并解释 python jit 编译器 numba 如何加速 python 代码。最后，通过一个完整的光线跟踪示例，我将引导您完成使用 pyoptix 的 nuba 扩展的步骤，并用 python 编写一个加速的光线跟踪内核。
什么是 nvidia optix 和 pyoptix ？
nvidia rtx 技术使光线跟踪成为许多现代渲染管道中的默认渲染算法。由于对独特外观的需求是无限的，因此需要灵活定制渲染管道。
nvidia rtx 光线跟踪管道是可定制的。通过配置光在各种材质上的传输、反射和折射方式，可以在对象上实现独特的外观，例如有光泽、有光泽或半透明。通过配置光线的生成方式，可以相应地更改视图的视野和透视效果。
为了满足这一需求， nvidia 开发了 nvidia optix ，这是一种光线跟踪引擎，可用于配置硬件加速的光线跟踪管道。 pyoptix 是 nvidia optix python 接口。此接口为 python 开发人员提供了与使用 c ++编写的 nvidia optix 开发人员相同的功能。
内核函数
要自定义图像方面，可以使用内核函数，也称为内核方法或内核。您可以将内核视为一组将数据输入转换为所需形式的算法。本地 nvidia optix 开发人员可以使用 cuda 编写内核。使用 nuba 扩展，您可以在 python 中编写光线跟踪内核。
numba 和 numba 的性能更高。库达大学
光线跟踪是一种计算密集型算法。虽然理论上可以使用标准 c python 解释器运行光线跟踪内核，但渲染常规光线跟踪图像需要几天的时间。此外， nvidia optix 要求内核可以在 gpu 设备上运行，以便与其余渲染管道集成。
使用 numba ，一个实时的 gpu 函数编译器，您可以使用 python 硬件执行并加速您的 python 光线跟踪内核。 numba 解析 python 功能代码并将其转换为有效的机器代码。在较高层次上，该过程分为七个步骤：
该函数的字节码由字节码编译器生成。
分析了字节码。生成控制流图（ cfg ）和数据流图（ dfg ）。
通过字节码、 cfg 和 dfg ，可以生成 numba 中间表示（ ir ）。
根据函数输入的类型，推断每个 ir 变量的类型。
nuba ir 被重写，并得到 python 特定的优化。
numba ir 降低到 llvm ir ，并执行更一般的优化。
llvm ir 由 llvm 后端使用，并生成优化的 gpu 机器代码。
图 1 numba 编译管道的高级视图
图 1 显示了前面提到的编译管道的图形概述。这篇关于 numba 编译器管道的快速教程只提供了对 numba 内部架构的一点了解。
下面的代码显示了一个示例 gpu 内核，该内核计算两个 3 元素向量的点积。
@cuda.jit(device=true)def dot(a, b): return a.x * b.x + a.y * b.y + a.z * b.z 因为 numba 可以将任何 python 函数转换为本机代码，所以在 numba cuda 内核中， python 用户拥有同等的权限，就像他们在用本机 cuda 编写内核一样。此代码显示可在设备上执行的点产品。有关更多信息，请参阅 numba examples 。
介绍 pyoptix 的 nuba 扩展
要自定义光线跟踪管道的特定阶段，必须将 nuba 内核转换为 nvidia optix 引擎可以理解的内容。 nvidia 为 pyoptix 开发了 numba 扩展以实现这一目标。
扩展包括自定义类型定义和内部函数降维。 nvidia optix 附带一组内部类型：
optixtraversablehandle
optixvisibilitymask
sbtdatapointer
功能，如optix.trace
为了让 nuba 对这些新类型和方法执行类型推断，您必须注册这些类型并在编译用户内核之前提供这些方法的实现。目前， nvidia 正在扩展支持的类型和内部函数，以添加更多示例。
通过向 numba 公开这些类型和内部函数，您现在可以编写内核，它不仅针对 gpu ，而且可以专门针对 gpu 进行光线跟踪内核。与 numba cuda 结合使用，您可以编写功率相等的光线跟踪内核，就像为 nvidia optix 编写本机 cuda 光线跟踪内核一样。
在下一节中，我将介绍一个带有 pyoptix-numba 扩展的 hello-world 示例。在此之前，让我快速回顾一些光线跟踪算法的基础知识。
射线追踪基础
假设您使用相机拍摄图像。场景中的光源发射光线，光线沿直线传播。当光线击中物体时，它会从表面反射，最终到达相机传感器。
从较高的层次来看，光线跟踪算法将遍历到达图像平面的所有光线，以在场景中确定光线的相交位置和相交内容。找到交点后，可以采用各种着色技术来确定交点的颜色。然而，也有一些射线不会击中场景中的任何东西。在这种情况下，这些光线被视为“丢失”目标。
使用 pyoptix 的 numba 扩展对三角形进行光线跟踪的步骤
在下面的示例中，我将展示 pyoptix 的 numba 扩展如何帮助您编写自定义内核，以定义光线生成、光线命中和光线未命中时的光线行为。
场景设置
我将您看到的视图建模为一个图像平面，它通常略位于相机前面。相机被建模为三维空间中的一个点和一组相互正交的向量。
图 2 三角形渲染示例的场景设置
照相机
相机建模为三维中的一个点。摄像机的三个矢量， u 、 v 和 w 、用于显示侧面、向上和正面方向。这唯一地确定了相机的位置和方向。
为了简化后续光线生成的计算， u 和 v 矢量不是单位矢量。相反，它们的长度与图像的纵横比成比例匹配。最后， w 向量的长度是相机和图像平面之间的距离。
射线生成内核
射线生成内核是该算法的核心。射线原点和方向在此处生成，然后传递给跟踪调用。它的强度从其他内核中检索出来，并作为图像数据写入。在本节中，我将讨论在此内核中生成光线的方法。
使用相机和图像平面，可以生成光线。采用以图像中心为原点的坐标系约定。图像像素中坐标的符号表示其相对于原点的相对位置，其大小表示距离。使用此属性，将相机的 u 和 v 矢量与像素位置的相应元素相乘，然后将它们相加。结果是从图像中心指向像素的向量。
最后，将该向量添加到 w 或前向量，这将生成一条光线，该光线从相机位置开始，穿过图像平面上的像素。图 3 显示了一条光线的分解，该光线起源于相机，并穿过图像平面中的点（ x 、 y ）。
图 3 穿过像素的光线分解（ x ， y ）
在代码中，可以使用 optix 的两个内在函数optix.getlaunchindex和optix.getlaunchdimensions检索图像平面的像素索引和图像尺寸。接下来，像素索引被归一化为［-1.0 ， 1.0］。下面的代码示例显示了 nuba cuda 内核中的这种逻辑。
@cuda.jit(device=true, fast_math=true)def computeray(idx, dim): u = params.cam_u v = params.cam_v w = params.cam_w # normalizing coordinates to [-1.0, 1.0] d = float32(2.0) * make_float2( float32(idx.x) / float32(dim.x), float32(idx.y) / float32(dim.y) ) - float32(1.0) origin = params.cam_eye direction = normalize(d.x * u + d.y * v + w) return origin, direction def __raygen__rg(): # look up your location within the launch grid idx = optix.getlaunchindex() dim = optix.getlaunchdimensions() # map your launch idx to a screen location and create a ray from the camera # location through the screen ray_origin, ray_direction = computeray(make_uint3(idx.x, idx.y, 0), dim) 此代码示例显示了computeray的助手函数，该函数计算光线的原点和方向向量。
接下来，将生成的光线传递给内部函数optix.trace。这将初始化光线跟踪算法。底层 optix 引擎遍历基本体，计算场景中的交点，最后返回光线的强度。下面的代码示例显示了对optix.trace的调用。
# in __raygen__rg payload_pack = optix.trace( params.handle, ray_origin, ray_direction, float32(0.0), # min intersection distance float32(1e16), # max intersection distance float32(0.0), # raytime -- used for motion blur optixvisibilitymask(255), # specify always visible uint32(optix_ray_flag_none), uint32(0), # sbt offset -- refer to optix manual for sbt uint32(1), # sbt stride -- refer to optix manual for sbt uint32(0), # misssbtindex -- refer to optix manual for sbt ) 射线命中内核
在光线命中内核中，您可以编写代码来确定光线的每个通道的强度。如果三角形顶点是使用 nvidia optix 内部数据结构设置的，则可以调用 nvidia optix 内在optix.gettrianglebarycentrics来检索命中点的重心坐标。
要使颜色更有趣，请将此坐标插入该像素的颜色中。颜色的蓝色通道设置为 1.0 。光线的强度应传递给光线生成内核进行进一步的后处理，并写入图像。
nvidia optix 通过有效负载寄存器在内核之间共享数据。使用setpayload功能将有效负载寄存器的值设置为光线强度。默认情况下，有效负载寄存器是整数类型。使用 cuda 内部函数float_as_int将浮点值解释为整数，而不更改位。
@cuda.jit(device=true, fast_math=true)def setpayload(p): optix.setpayload_0(float_as_int(p.x)) optix.setpayload_1(float_as_int(p.y)) optix.setpayload_2(float_as_int(p.z)) def __closesthit__ch(): # when a built-in triangle intersection is used, a number of fundamental # attributes are provided by the nvidia optix api, including barycentric coordinates. barycentrics = optix.gettrianglebarycentrics() setpayload(make_float3(barycentrics, float32(1.0))) 射线未命中内核
“光线未命中”内核设置未命中场景中任何对象的光线的颜色。在这里，您可以将它们设置为背景色。
bg_color是在设置渲染管道期间在着色器绑定表中指定的一些数据。现在，请注意，这是一组硬编码的浮点数，表示场景的背景色。
def __miss__ms(): miss_data = missdatastruct(optix.getsbtdatapointer()) setpayload(miss_data.bg_color) 将强度转换为颜色并写入图像
现在，您已经为所有光线定义了颜色。颜色在光线生成内核中作为payload_pack数据结构从optix.trace调用中检索。还记得在 ray hit 和 ray miss 内核中，必须将浮点数的位解释为整数吗？使用int_as_float功能还原此步骤。
现在，您可以直接将这些值写入图像，它仍然看起来很棒。再多做一步，对原始像素值执行后处理步骤，这对于更复杂场景中的出色图像非常重要。
您检索到的值只是光线的原始强度，它与光线携带的能量级别成线性比例。虽然这符合你的物理世界模型，但人眼不会以线性方式对光刺激作出反应。相反，它遵循输入的映射，通过幂函数进行响应。
为此，对强度进行 gamma correction 测试。此外，大多数查看此图像结果的用户都在观看具有 srgb 颜色空间的监视器。假设光线跟踪世界中的值位于 cie-xyz color space 中，并应用颜色空间转换。最后，将颜色值量化为 8 位无符号整数。
下面的代码示例显示了用于后期处理颜色强度并将其写入光线生成内核中的像素阵列的辅助函数。
@cuda.jit(device=true, fast_math=true)def tosrgb(c): # use float32 for constants invgamma = float32(1.0) / float32(2.4) powed = make_float3( fast_powf(c.x, invgamma), fast_powf(c.y, invgamma), fast_powf(c.z, invgamma), ) return make_float3( float32(12.92) * c.x if c.x < float32(0.0031308) else float32(1.055) * powed.x - float32(0.055), float32(12.92) * c.y if c.y < float32(0.0031308) else float32(1.055) * powed.y - float32(0.055), float32(12.92) * c.z if c.z < float32(0.0031308) else float32(1.055) * powed.z - float32(0.055), ) @cuda.jit(device=true, fast_math=true)def make_color(c): srgb = tosrgb(clamp(c, float32(0.0), float32(1.0))) return make_uchar4( quantizeunsigned8bits(srgb.x), quantizeunsigned8bits(srgb.y), quantizeunsigned8bits(srgb.z), uint8(255), ) # in __raygen__rg result = make_float3( int_as_float(payload_pack.p0), int_as_float(payload_pack.p1), int_as_float(payload_pack.p2), ) # record results in your output raster params.image[idx.y * params.image_width + idx.x] = make_color(result) 总结
pyoptix 允许您使用 python 设置光线跟踪渲染管道。 nuba 将 python 函数转换为与渲染管道兼容的设备代码。 nvidia 将这两个库组合到 pyoptix 的 nuba 扩展中，使您能够在完整的 python 环境中编写加速光线跟踪应用程序。
结合 python 已经拥有的丰富而活跃的环境，您现在可以解锁构建光线跟踪应用程序的真正能力，硬件加速。下载演示亲自体验 pyoptix 的 numba 扩展！
下一步是什么？
pyoptix numba 扩展正处于开发阶段， nvidia 正在努力添加更多示例，并使 nvidia optix 原语的键入更加灵活和 pythonic 。
关于作者
michael yh wang 是 nvidia rapids 的软件工程师。目前，他将自己的工程技能贡献给了 cudf 、 cuspatial 和 numba 。在加入 nvidia 之前，他获得了耶鲁大学的理学硕士学位。他早期的经验包括在一个独立电影项目中担任视觉效果主管，并在 waic 2020 hackathon 竞赛中获得第一名。 michael 对软件工程、计算机图形算法和编译器技术有浓厚的兴趣。他相信，在未来，通过编译器和语言创新，加速计算将更容易为公众所接受。

借助ThingPark IoT平台完成无线固件更新
爱立信数码实验室项目志愿团队荣膺「高能敏捷团队」奖
融资扩产背后，作为工业机器人行业香饽饽的减速器明年将会大洗牌？
网络交换机最主要的作用是什么
BOM准确率提高方法
使用Nuba扩展在Python中编写光线跟踪应用程序
家用电器专用滤波器的作用和使用方法
pcb绿油起泡原因
富士康投身工业互联网的独门秘籍是什么?
大学毕业设计一席谈之五十删余卷积码仿真(3) 集群设备产品代码
饱和蒸汽流量计可以进行温度补偿或者压力补偿
深圳市首家5G智慧医院启动建设给患者带来一些与众不同的诊疗新体验
EEJournal的“用软件来定义一切”涉及了新的SDSoC设计环节
红杉一线机构深度布局 IC产业生态建设现另一极
赛灵思的局部重配置技术（Partial Reconfiguration）
台湾区块链新创鲸链先进将于CES2019首发7纳米SHA256算力芯片
浅谈电子管推挽放大器交越失真的成因及消除方法
《全球石油和天然气市场人工智能研究报告》研究提供了广泛的信息
垂直腔面发射激光器的设计原则说明
空气流量测试系统实现对多传感器信息融合