,,

The following article is from 機器之心SOTA模型 Author 機器之心SOTA模型

(相關資料圖)

機器之心專欄

本專欄將逐一盤點自然語言處理、計算機視覺等領域下的常見任務，并對在這些任務上取得過 SOTA 的經典模型逐一詳解。前往 SOTA！模型資源站（sota.jiqizhixin.com）即可獲取本文中包含的模型實現代碼、預訓練模型及 API 等資源。

本文將分 3 期進行連載，共介紹 17個在目標檢測任務上曾取得 SOTA 的經典模型。

第 1 期：R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、OHEM

第 2 期：R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet

第 3 期：RRC detection、CornerNet、M2Det、FOCS、ObjectBox

您正在閱讀的是其中的第 2 期。前往 SOTA！模型資源站（sota.jiqizhixin.com）即可獲取本文中包含的模型實現代碼、預訓練模型及 API 等資源。

第 1 期回顧：

本期收錄模型速覽

模型	SOTA！模型資源站收錄情況	模型來源論文
R-FCN	https://sota.jiqizhixin.com/project/rfcn 收錄實現數量：47 支持框架：PyTorch，TensorFlow等	R-FCN: Object Detection via Region-based Fully Convolutional Networks
Mask RCNN	https://sota.jiqizhixin.com/project/mask-r-cnn 收錄實現數量：13	Mask R-CNN
YoLo	https://sota.jiqizhixin.com/project/yolo-2017 收錄實現數量：3 支持框架：PaddlePaddle、TensorFlow等	You Only Look Once: Unified, Real-Time Object Detection
SSD	https://sota.jiqizhixin.com/project/ssd-4 收錄實現數量：27	SSD: Single Shot Multibox Detector
FPN	https://sota.jiqizhixin.com/project/fpn-4 收錄實現數量：4 支持框架：PaddlePaddle，TensorFlow等	Feature Pyramid Networks for Object Detection
RetinaNet	https://sota.jiqizhixin.com/project/retinanet-2021 收錄實現數量：210	Focal Loss for Dense Object Detection

目標檢測作為計算機視覺的基本問題之一，是許多其他計算機視覺任務的基礎，如實例分割、圖像字幕、對象跟蹤等。簡單來說，目標檢測就是對圖片中物體正確分類，同時找到物體的具體位置，具體是指識別圖片中有哪些物體以及物體的位置（坐標位置）的技術。在互聯網、大數據、人工智能等技術的發展浪潮下，目標檢測展現出巨大的應用價值，受到工業界、學術界越來越多的關注。

目標檢測的發展大致經歷了兩個歷史時期：" 傳統的目標檢測時期 " ( 2014年以前 ) 和 " 深度學習的目標檢測時期 " ( 2014年以后 )。本文重點回顧深度學習時代的經典模型。在深度學習時代，目標檢測可以分為兩類：" two-stage detection " 和 " one-stage detection "，前者將檢測框定為一個 " 從粗到細 " 的過程，而后者將其定義為 " 一步完成 "。我們在介紹過程中，將分兩類進行分析。兩階段模型（two-stage detection）因其對圖片的兩階段處理得名，也稱為基于區域（Region-based）的方法，R-CNN系列工作就是這一類型的代表。單階段模型（one-stage detection）沒有中間的區域檢出過程，直接從圖片獲得預測結果，也被稱為Region-free方法。

本文回顧目標檢測中必備的TOP模型，包括one-stage模型和two-stage模型。

一、two-stage模型

1、 R-FCN

前文描述的 R-CNN，SPPNET，Fast R-CNN，Faster R-CNN 的目標檢測都是基于全卷積網絡彼此共同分享以及 ROI 相關的彼此不共同分享的計算的子網絡，R-FCN算法使用的這兩個子網絡是位置比較敏感的卷積網絡，而舍棄了之前算法所使用的最后的全連接層，目的是讓所有的計算都可以共享。因此，R-FCN的出發點就是為了減少重復計算，盡可能地共享網絡。為了將 translation variance 引入到全卷積網絡中，本文設計了一種特殊的卷積層作為全卷積網絡的輸出，該卷積層輸出 position-sensitive 的 score map，每個 score map 引入了位置信息。在網絡的最后一層，再接一個 position-sensitive RoI pooling 層，完成對物體的檢測。在整個網絡框架中，所有可學習的層都是卷積層，同時把空間位置信息引入特征學習中，使得整個網絡可以進行端到端的學習。

R-FCN 算法進行目標檢測的步驟如下：（1）候選區域：使用的是 RPN（Region Proposal Network）候選區域網絡，同時 RPN 網絡結構是全卷積的網絡；（2）分類和回歸：采用的是 RPN 特征共享的性質來進行目標的分類。在進行 bbox 回歸的時候，通常將 C 選取為 4。

R-FCN采用 ResNet 101 的卷積層作為基礎的卷積網絡結構，再接一個卷積層用于降維，最后接一個產生 k^2(C+1)個 score map 的 position-sensitive 的卷積層，然后接一個 position-sensitive RoI pooling 層，最后使用 Softmax 判斷 RoI 的類別。此外，還可以接一個產生 4k^2個 map 用于回歸 Bounding box 的位置，同樣應用 position-sensitive RoI pooling 層，最后得到一個回歸的位置。具體結構如圖1所示。

圖1. R-FCN的整體架構。使用區域建議網絡（RPN）提出候選RoI，然后將其應用于score map。所有可學習的權重層都是卷積的，并且是在整個圖像上計算的；每個RoI的計算成本可以忽略不計

對于position-sensitive 卷積層，為了將位置信息引入到 position-sensitive 的 feature map 中，對于每個 RoI，將其分割成 k*k 個 bins，每個 bin 的大小約等于 w/kh/k。最后一個卷積層為每個類別生成 k^2 個 score map。在第 (i,j)個 bin (0≤i,j≤k1)上的 position RoI pooling 操作定義為：

每個類別上都可以得到 k 個 position-sensitive 的 score，文章直接對這些值求平均值，得到最終的 score，因為分母都相同，均為 k，因此這個 score 就可以寫成 r_c(Θ)=∑_i.j r_c(i,j∣Θ)，在對這個 RoI 分類時，采用 Softmax 的方式在每個類別上的響應可以寫成 :

在訓練過程中采用交叉熵的方式進行訓練。圖8給出了position-sensitive 卷積層的詳細

展示

圖2. R-FCN的關鍵思想。圖中有一個全卷積網絡產生的k×k=3×3的位置敏感分數圖。對于一個RoI中的每一個k×k bins，只對k^2個map中的一個進行匯集（用不同的顏色標記）

R-FCN是 Faster R-CNN 的改進版本，其 loss function 定義基本上是一致的：

在該網絡框架下，所有可學習的層都是卷積層，使用 Online Hard Example Mining (OHEM) ，幾乎不會增加訓練時間。

當前 SOTA！平臺收錄 R-FCN 共 47 個模型實現資源。

項目SOTA！平臺項目詳情頁R-FCN前往 SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/rfcn

2、 Mask-RCNN

Mask R-CNN是一個兩階段的框架，第一個階段掃描圖像并生成建議區域（proposals，即有可能包含一個目標的區域)，第二階段分類提議并生成邊界框和掩碼。Mask R-CNN是在Faster R-CNN的基礎上添加了一個預測分割mask的分支，即在目標檢測的基礎上再進行分割。Mask R-CNN算法主要是Faster R-CNN+FCN，更具體一點就是ResNeXt+RPN+RoI Align+Fast R-CNN+FCN，如下圖所示：

圖3. Mask R-CNN 結構圖

Mask R-CNN算法步驟如下：（1）輸入一張圖片，進行數據預處理（尺寸，歸一化等等）；（2）將處理好的圖片傳入預訓練的神經網絡中(例如，ResNet)以獲得相應的feature map；（3）通過feature map中的每一點設定ROI，獲得多個ROI候選框；（4）對這些多個ROI候選框送到RPN中進行二值分類（前景或后景）和BB回歸(Bounding-box regression)，過濾掉一部分候選的ROI；（5）對剩下的ROI進行ROI Align操作（即先將原圖和feature map的pixel對應起來，然后將feature map和固定的feature對應起來）；（6）對這些ROI進行分類（N類別分類），BB回歸和Mask生成（在每一個ROI里面進行FCN操作）。

首先，Mask R-CNN采用ResNet-50或者ResNet-101作為特征提取器提取特征，然后采用FPN（特征金字塔網絡）的結構來進行特征融合。FPN可以同時利用低層特征圖的空間信息和高層特征圖的語義信息，其原理就是把分辨率較小的高層特征首先通過1×1卷積降維（減少計算量），然后上采樣至前一個特征圖的相同尺寸，再進行逐元素相加，就能得到融合后的特征。在得到增強后的特征后，利用RPN（Region Proposal Network）幫助網絡推薦感興趣的區域（ROI區域）。

接下來，需要把所有的ROI都pooling成相同大小的feature map后，才能將它reshape 成一個一維的向量，從而完成后面的分類與回歸任務。與Faster RCNN中的ROI pooling不同，使用ROI pooling會造成較大的量化誤差，這對于分割任務來說會造成較大的誤差，因此Mask R-CNN中對ROI pooling進行了改進，提出了ROI Align。RoI Align的思路很簡單：取消量化操作，使用雙線性內插的方法獲得坐標為浮點數的像素點上的圖像數值，從而將整個特征聚集過程轉化為一個連續的操作。值得注意的是，在具體的算法操作上，RoI Align并不是簡單地補充候選區域邊界上的坐標點，然后將這些坐標點進行池化，而是重新設計了一套流程：（1）遍歷每一個候選區域，保持浮點數邊界不做量化。（2）將候選區域分割成 × 個單元，每個單元的邊界也不做量化。（3）在每個單元中計算固定四個坐標位置，用雙線性內插的方法計算出這四個位置的值，然后進行最大池化操作。

圖4. RoIAlign: 虛線代表一個特征圖，實線代表一個RoI (在本例中為2×2 bins)。RoIAlign通過對特征圖上附近的網格點進行雙線性插值來計算每個采樣點的值。在RoI、bins或采樣點中涉及的任何坐標都不進行量化處理

根據論文所述，我們通過ROI Align可以把RPN生成并篩選后的框所對應的區域全部變成我們需要大的特征圖。而最后的任務就是對這些特征圖來做進一步的分類、定位、分割。分類和定位和RPN里面的分類定位原理相同，對于分割，如圖11右側所示，在得到ROI Align處理過的特征后，由于前面進行了多次卷積和池化，減小了對應的分辨率，mask分支開始利用反卷積進行分辨率的提升，同時減少通道的個數，maskrcnn使用到了FPN網絡，通過輸入單一尺度的圖片，最后可以對應的特征金字塔，首先將ROI變化為14x14x256的feature，然后進行了5次相同的卷積操作，然后進行反卷積操作，最后輸出28x28x80的mask，即輸出了更大的mask。

圖5. 網絡頭結構

最后，整個Mask RCNN網絡結構包含兩部分，一部分是backbone用來提取特征（上文提到的采用ResNet-50或者ResNet-101作為特征提取器提取特征），另一部分是head用來對每一個ROI進行分類、框回歸和mask預測。為了產生對應的Mask，文中提出了兩種架構，即左邊的Faster R-CNN/ResNet和右邊的Faster R-CNN/FPN，如圖11所示。

當前 SOTA！平臺收錄 Mask RCNN 共 13 個模型實現資源。

項目SOTA！平臺項目詳情頁Mask RCNN前往 SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/mask-r-cnn

二、one-stage模型

1、 YOLO

YOLO是one-stage方法的開山之作。它將檢測任務表述成一個統一的、端到端的回歸問題，并且以只處理一次圖片同時得到位置和分類而得名。YOLO 是基于回歸方法的，不需要區域選擇操作，替換成了回歸操作來完成目標檢測和目標分類。YOLO架構如圖12所示。相比Faster RCNN，YOLO結構簡單，網絡中只包含conv，relu，pooling和全連接層，以及最后用來綜合信息的detect層。其中使用了1x1卷積用于多通道信息融合。

圖6. 檢測網絡有24個卷積層，然后是2個全連接層。交替出現的1×1卷積層減少了前幾層的特征空間。在ImageNet分類任務中以一半的分辨率（224×224輸入圖像）對卷積層進行預訓練，然后以兩倍的分辨率進行檢測

YOLO的工作步驟如下：第一步：輸入一張需要檢測的圖片，將這張圖片分割為 7×7 的網絡結構（即圖13中的S=7）；第二步：對于 7×7 網格中的每一個網絡，都提供 2 個預測的邊框，這兩個邊框包含了每個邊框的目標的置信信息和每一個邊框區域在不同類別上的可能性；第三步：將第二步中預測出的 7×7×2 個目標網絡的性能進行排列，設定合適的閾值進行篩選，依據設定的閾值將目標所在可能性比較低的網絡窗口剔除，留下可能性比較高的網絡窗口，同時用 NMS 將冗余窗口去除即可。

圖7. 模型。YOLO將檢測建模為一個回歸問題。它將圖像劃分為一個S×S的網格，并為每個網格單元預測B的邊界框、這些框的置信度和C類概率。這些預測被編碼為一個S×S×（B5+C）張量

YOLO 前半部分的網絡結構和GoogleNet 的結構模型比較相似，YOLO 網絡結構的特點主要在后面兩層結構上，是在卷積層操作之后連接了一個全連接層，同時這個全連接層是 4096維度的，然后在這個全連接層之后又連接了一個 7×7×30 維度的向量。這個 7×7 就是上文中的將圖片分割成的 7×7 的網絡結構，之后就需要在每一個網絡上預測目標可能會出現的兩個可能的位置，同時預測這個目標出現的位置在圖片目標上的置信信息和類別，也就是說需要預測兩個目標在每一個網格中，每一個目標都是有中心點坐標和長寬這 4 個維度的信息，1 個目標的置信信息，還有 20 個目標的類別數，使用 VOC上面的 20 個類別，就會有(4+1)×2+20=30維度，因此后面連接了一個 7×7×30 維度的向量。所以，就可以使用前文的 4096 維度的全連接層在每一個網格上直接回歸出目標所需要的置信信息和類別數。

YOLO訓練過程中最終優化的目標函數為Loss = λ_coord權重* 坐標預測誤差 + （含object的box confidence預測誤差 + λ——noobj* 不含object的box confidence預測誤差） + 類別預測誤差：

當前 SOTA！平臺收錄 YOLO 共 3 個模型實現資源。

項目SOTA！平臺項目詳情頁

YOLO

前往 SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/yolo-2017

2、 SSD

YOLO 算法中的 7x7 網絡結構讓目標的定位不是很準確，讓檢測的精確度不是很高，SSD （Single Shot MultiBox Detector）算法結構模型就是將 YOLO 的回歸方法和 Faster R-CNN 的 anchor box思想結合起來，并對整個圖片的不同位置的不同尺度的區域特征進行回歸操作，這樣既可以保持 YOLO回歸方法的快速檢測的優勢，又使用 Faster R-CNN 中的 anchor 機制保證窗口預測的準確度。

SSD網絡主體設計的思想是特征分層提取，并依次進行BB邊框回歸和分類。因為不同層次的特征圖能代表不同層次的語義信息，低層次的特征圖能代表低層語義信息(含有更多的細節)，能提高語義分割質量，適合小尺度目標的學習。高層次的特征圖能代表高層語義信息，能光滑分割結果，適合對大尺度的目標進行深入學習。所以作者提出的SSD的網絡理論上能適合不同尺度的目標檢測。SSD網絡中分為了6個stage，每個stage能學習到一個特征圖，然后進行邊框回歸和分類。SSD網絡以VGG16的前5層卷積網絡作為第1個stage，然后將VGG16中的fc6和fc7兩個全連接層轉化為兩個卷積層Conv6和Conv7作為網絡的第2、第3個stage。接著在此基礎上，繼續增加了Conv8、Conv9、Conv10和Conv11四層網絡，用來提取更高層次的語義信息。如圖8為SSD的網絡結構。在每個stage操作中，網絡包含了多個卷積層操作，每個卷積層操作基本上都是小卷積。

圖8. 兩個檢測模型的比較，SSD和YOLO。SSD模型在基礎網絡的末端增加了幾個特征層，預測不同比例和長寬比的默認框的偏移量以及它們的相關置信度。在VOC2007測試中，輸入尺寸為300×300的SSD在準確性上明顯優于其448×448的YOLO對應模型，同時也提高了速度

在SSD中，作者充分的吸取了Faster R-CNN中的Anchor機制，在每個Stage中根據Feature Map的大小，按照固定的Scale和Radio生成Default Boxes。在每張特征圖上得到許多Default Box后還需要生成相應的特征向量，用來進行邊框回歸和分類。對于分類，SSD網絡采取為每個類別進行打分的策略，也就是說對于每個Default Box，SSD網絡會計算出相應的每個類別的分數。假設數據集類別數為c，加上背景，那么總的類別數就是c+1類。SSD網絡采用了c+1維向量來分別代表該Default Box對于每個類別所得到的分數。

SSD網絡對于每個stage輸出的特征圖都進行邊框回歸和分類處理，SSD的損失包括類別損失和定位損失，其中，類別損失L_conf又分為正樣本和負樣本類別損失，聯合損失函數如下：

為了提高檢測準確度，作者還引入了四種輔助方法：

匹配策略：即ground truth和Default box的匹配。首先，根據最大的overlap將ground truth和default box進行匹配(根據ground truth找到default box中IOU最大的作為正樣本)；然后，將default boxes與overlap大于某個閾值(目標檢測中通常選取0.5)的ground truth進行匹配。

Default boxes生成器：來自網絡內不同層次的特征圖具有不同的（經驗）感受野大小。在SSD框架內，Default box不一定要對應于每一層的實際感受區，可以令特定的特征圖學會對物體的特定比例作出反應。假設我們想使用m個特征圖進行預測。每個特征圖的default box的比例計算為：

Hard Negative Mining：經過匹配策略會得到大量的負樣本，只有少量的正樣本。這樣導致了正負樣本不平衡，作者經過試驗表明，正負樣本的不均衡是導致檢測正確率低下的一個重要原因。所以，作者在訓練過程中采用了Hard Negative Mining的策略，根據Confidence Loss對所有的box進行排序，使得正負樣本的比例控制在1:3之內。

數據增強：這一步驟的目的是使得模型更加魯棒。作者在文中具體采用的增強手段包括使用整張圖像作為輸入；使用IOU和目標物體為0.1、0.3、0.5、0.7和0.9的patch，這些patch在原圖大小的[0.1, 1]之間，相應的寬高比在[1/2, 2]之間；隨機采取一個patch；使用光學增強。

當前 SOTA！平臺收錄 SSD 共 27 個模型實現資源。

項目SOTA！平臺項目詳情頁SSD前往 SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/ssd-4

3、 FPN

特征金字塔(Feature pyramids)是多尺度目標檢測系統中一個重要組成部分，近年來，由于特征金字塔存在影響模型計算速度、占用內存等問題，大多數深度網絡避免使用這個結構。在此之前，SSD模型提出了一個"內置的"特征金字塔解決了上面問題。但是SSD網絡只采用自底向上的路徑不夠完美，此外，SSD舍棄了高分辨率的底層網絡層，對小目標的檢測效果不夠理想。本文作者提出了基于Bottom-up pathway、Top-down pathway and lateral connections策略的Feature Pyramid Network (FPN)結構，在目標檢測任務中取得了不錯的效果。

Bottom-up pathway：自底向上的路徑就是網絡的前向計算過程，特征圖經過卷積層化層一般會越來越小，也有一些特征層的輸出和輸入大小一樣。作者將大小不變的feature map層稱為stage，每次抽取的特征都是每個stage最后一個層的輸出。最后一層具有最強的語義特征，眾多層一起構成了特征金字塔。對于ResNet網絡，作者使用每個stage的最后一個殘差結構的特征激活輸出。將這些輸出表示為{C2, C3, C4, C5}，對應于conv2，conv3，conv4和conv5的輸出，相對于輸入圖像則具有{4, 8, 16, 32}像素的步長。考慮到內存占用問題，作者沒有將conv1包含在金字塔中。

Top-down pathway and lateral connections：自頂向下的路徑是通過對網絡上采樣(upsampling)進行的，橫向連接則是將上采樣的結果和自底向上生成的相同大小的feature map進行融合。在融合之后為了消除上采樣的混疊效應(aliasing effect)，采用3*3的卷積核對每個融合結果進行卷積，并假設生成的融合特征層為{P2, P3, P4, P5}和原來自底向上的卷積結果{C2, C3, C4, C5}對應。

圖9. 頂部：一個自上而下的結構，包含skip connections，預測是在最細的層次上進行的。底部：本文模型有一個類似的結構，但利用它作為一個特征金字塔，在所有層次上獨立進行預測

圖10. 一個說明側向連接和自上而下途徑的構件，通過添加而合并

圖10給出了構建自上而下特征圖的構件。對于一個較粗分辨率的特征圖，將空間分辨率提高2倍（為簡單起見，使用最近的鄰居提高取樣）。然后，通過元素相加的方式將上層map與相應的下層map（經過1×1卷積層以減少通道尺寸）合并。這個過程反復進行，直到生成最精細的分辨率map。為了開始迭代，只需在C5上附加一個1×1卷積層以產生最粗分辨率的map。采用3*3的卷積核對每個融合結果進行卷積，并假設生成的融合特征層為{P2, P3, P4, P5}和原來自底向上的卷積結果{C2, C3, C4, C5}對應。

當前 SOTA！平臺收錄 FPN 共 4 個模型實現資源。

項目SOTA！平臺項目詳情頁FPN前往 SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/fpn-4

4、 RetinaNet

在one-stage檢測器中，檢測器須處理約100K的樣本，其中大多數都是容易分類的負樣本，正樣本很少，即使采用困難樣本挖掘等啟發式抽樣，其訓練過程還是主要由容易分類背景負樣本主導。本文提出了Focal Loss，能夠根據檢測結果的置信度動態調整其對損失函數的貢獻。樣本對損失函數的貢獻會隨著置信度的提高而降低，因此，盡管one-stage檢測存在海量容易分類的背景樣本，但是由于其置信度高，所以其對損失函數的占比小，因此不會主導訓練過程，從而解決了one-stage檢測器正負樣本不均衡的問題。

首先從二分類的交叉熵損失函數出發分析：

p表示模型預測當前樣本標簽為1的概率。為了描述方便，定義p_t 為：

進一步，解決正負樣本不均衡的方法是在交叉熵損失函數中加入加權因子α，交叉熵損失函數改寫為：

通過調節加權因子可以平衡類別間的不均衡。在實際應用中，可以將α 設為類別頻率的相反數，即頻率高的就將α 調低；或者將α 作為超參數調參。但是盡管α 可以調整正負樣本的均衡，卻不能調整難易樣本的均衡，而one-stage檢測器的主要問題在于大量容易負樣本構成了大部分的損失，并主導了梯度，主導了訓練過程，因此作者在交叉熵中引入了與預測置信度相關的調節因子，如下式所示：

對于容易樣本，其預測的置信度必然相對較高，即預測的p_t 值較大，那么(1pt) 就可以降低損失的權重。另外還有一個調節懲罰力度的超參數γ ，γ∈[1,5] 。為了能夠對正負樣本和難易樣本都取得一個較好的均衡，作者采用以下形式的損失函數：

在二分類的任務中，默認的初始化往往會選擇使得預測正類和負類的概率都為0.5。在這樣的初始化下，在類別不平衡的情況下，頻繁出現的類別所造成的損失會支配總的損失，導致早期訓練的不穩定。為了解決這個問題，作者引入了 "先驗 "的概念，即在訓練開始時由模型對稀有類（前景）估計的p值。用π表示先驗，并將其設置為：模型對稀有類別樣本的估計P很低，例如0.01。作者分析這是對模型初始化的改變，而不是損失函數的改變。作者發現，在類別嚴重失衡的情況下，這可以提高交叉熵和焦點損失的訓練穩定性。

為了驗證Focal Loss的有效性，作者設計了一個簡單的one-stage目標檢測器——RetinaNet，如下圖所示：

圖11. RetinaNet網絡架構在前饋ResNet架構之上使用了一個特征金字塔網絡（FPN）backbone（a），以產生一個豐富的、多尺度的卷積特征金字塔（b）。在這個backbone網絡上，RetinaNet附加了兩個子網絡，一個用于分類anchor box（c），一個用于從anchor box回歸到ground-truth object box（d）

RetinaNet的網絡結構是在FPN的每個特征層后面接兩個子網絡，分別是classification subnet（圖11c）和 bbox regression subnet（圖11d）。由圖11，FPN通過自上而下的路徑和橫向連接增強了標準卷積網絡，因此該網絡從單個分辨率輸入圖像有效地構建了豐富的多尺度特征金字塔，參見圖11(a)-(b)。Retinanet在resnet 架構頭部構建FPN結構，構建了P3~P7的特征金字塔，具有C=256t channels。

當前 SOTA！平臺收錄 RetinaNet 共 210個模型實現資源。

項目SOTA！平臺項目詳情頁RetinaNet前往 SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/retinanet-2021

前往 SOTA！模型資源站（sota.jiqizhixin.com）即可獲取本文中包含的模型實現代碼、預訓練模型及API等資源。

網頁端訪問：在瀏覽器地址欄輸入新版站點地址sota.jiqizhixin.com，即可前往「SOTA！模型」平臺，查看關注的模型是否有新資源收錄。

移動端訪問：在微信移動端中搜索服務號名稱「機器之心SOTA模型」或 ID「sotaai」，關注 SOTA！模型服務號，即可通過服務號底部菜單欄使用平臺功能，更有最新AI技術、開發資源及社區動態定期推送。

關鍵詞：目標檢測網絡結構損失函數