和 Transformers 基于 HuggingFace 的目的检测 Python

2024-11-15

传统上，目的检测是经过卷积神经网络来成功的。通常，它们的架构是专门针对目的检测设计的，由于它们将图像作为输入并输入图像的边界框。假设你相熟神经网络，你就知道卷积网络在学习图像中的关键特色方面十分有用，并且它们是空间不变的——换句话说，学习对象在图像中的位置或大小是有关紧要的。假设网络能够看到对象的特色，并将其与特定类别关联起来，那么它就能识别进去。例如，许多不同的猫都可以被辨以为猫类的实例。