为什么图形学要用四元数来做旋转？

Question

我是一个物理专业的从业人员，由于工作的额外需要，在学习图形学相关的技术，但是发现很多人使用四元数来表示旋转，但是在描述物理系统时，我们经常使用向量和矩阵，因为它们可以很好地处理线性变换和旋转，这些操作在数学上是连续和平滑的，因此它们具有良好的解析行为。相比之下，四元数虽然在描述3D旋转时避免了万向节锁定的问题，但在某些情况下，它们可能不满足物理学中对解析行为的要求，因为四元数乘法不是交换的，这可能导致在某些操作中出现不连续性。这就是为什么物理学家可能更倾向于使用向量和矩阵而不是四元数的原因之一。
如果仅仅是因为万向节锁的问题而使用四元数有点说服不了我，因为这只是欧拉角的问题。它也只是特定条件下的问题，这意味着它只是一个局部问题，可以通过切换坐标，或使用两个重叠的坐标系统来解决。

所以使用四元数做旋转而不是向量或矩阵及其他替代方案的原因是什么？

草蜢 · Accepted Answer

你提到的关于物理系统中使用向量和矩阵的原因是非常合理的。确实，在物理学中，向量和矩阵因其线性和解析性质而被广泛使用。然而，在计算机图形学中，四元数之所以被广泛采用，主要归因于以下几个原因：

避免万向节锁问题：尽管万向节锁问题是一个局部问题，但当涉及到复杂的动画和交互式应用时，这个问题可能会频繁出现。四元数能够避免这种情况的发生，从而提供更加平滑和稳定的旋转。
插值平滑性：在动画和渲染中，需要对旋转进行插值。使用四元数进行球面线性插值（Slerp）可以确保插值过程中的旋转路径是最短的，并且平滑。相比之下，使用欧拉角插值可能导致路径不连续或不自然。
计算效率：在某些情况下，四元数的运算比矩阵运算更为高效。四元数只需要4个分量，而旋转矩阵需要9个分量。在实时渲染和大规模数据处理中，这种效率差异可能是显著的。
数值稳定性：四元数在数值上更为稳定。在长时间的旋转序列中，使用矩阵可能会导致累积误差，而四元数则不会。
简洁性：在实现旋转操作时，四元数通常比矩阵更简洁。这不仅有助于减少代码复杂度，还可以提高可读性和维护性。

当然，物理学家在处理物理系统时，可能更关心的是解析性质和连续性。然而，在图形学领域，四元数提供了更好的性能、稳定性以及更自然的视觉效果，这些都是图形学应用中非常重要的因素。

总结来说，尽管四元数在某些方面可能不如向量和矩阵那样具有良好的解析行为，但在图形学应用中，它们提供了更高的性能和更自然的结果。

白胜 · Answer

万向锁（Gimbal lock）是一个原因，尽管如你所说，它只是欧拉角的一个问题，并且很容易解决。不过当内存是考虑因素时，我们还会使用欧拉角，因为我们只需要存储3个数字。

对于四元数与3x3旋转矩阵的对比：四元数在数据量上（4个标量对比9个）和性能（四元数乘法比3x3矩阵乘法快得多）方面具有优势。

需要注意的是，所有这些旋转表示方法在实际应用中都有使用。欧拉角占用最少的内存；矩阵虽然占用更多内存但不会遭遇万向锁，并且具有良好的解析特性；而四元数在这两者之间找到了很好的平衡，既轻量又没有万向锁的问题。

总结一下：

欧拉角：优点是占用内存最小，适用于对内存敏感的应用场景；缺点是可能遇到万向锁问题。
3x3旋转矩阵：提供了稳定的旋转表示，不会遇到万向锁，适合需要数学分析和稳定性的场合，但相对占用更多的内存。由于数据相对较多，频繁变换可能会导致数据蠕动的问题出现变换结果有误差的现象
四元数：以较少的内存（4个数值）和计算效率提供无万向锁的旋转表示，是现代3D图形和游戏开发中的首选。
每种方法都有其适用的场景，选择哪种取决于具体需求和约束条件。

为什么图形学要用四元数来做旋转？

2 Answers