COCO(Common Objects in Context)是一個計算機視覺領(lǐng)域的標準數(shù)據(jù)集,它包含了超過33萬張圖像,每張圖像都有80個不同物體類別的標注。其中,COCO數(shù)據(jù)集的圖像標簽和邊框信息以json格式存儲,而這里我們主要關(guān)注的是COCO的背景標簽json。
{ "info": { "year": 2018, "version": "", "description": "", "contributor": "", "url": "", "date_created": "" }, "licenses": [], "images": [ { "id": 1, "width": 640, "height": 425, "file_name": "000000000139.jpg", "license": 0, "flickr_url": "", "coco_url": "", "date_captured": "" }, { "id": 2, "width": 640, "height": 480, "file_name": "000000000285.jpg", "license": 0, "flickr_url": "", "coco_url": "", "date_captured": "" }, ... ], "annotations": [ { "id": 1, "image_id": 37, "category_id": 18, "bbox": [214.22, 226.41, 52.95, 139.41], "area": 7396.19, "iscrowd": 0 }, { "id": 2, "image_id": 48, "category_id": 18, "bbox": [403, 127, 69, 264], "area": 18216, "iscrowd": 0 }, ... ], "categories": [ { "id": 1, "name": "person", "supercategory": "" }, { "id": 2, "name": "bicycle", "supercategory": "" }, ... ] }
以上是COCO背景標簽json的大體結(jié)構(gòu),其中"categories"數(shù)組中的第一項為"person",表示人是COCO數(shù)據(jù)集中的一個物體類別。其他類別包括動物、交通工具、家居用品等,但COCO并沒有為它們定義標簽信息,因為所有未標注的像素都被默認為背景("background")。
COCO提供的背景標簽信息雖然簡單,但在訓(xùn)練圖像語義分割模型時也是必不可少的。在為模型準備數(shù)據(jù)時,我們需要首先將圖像分割成物體和背景兩部分,所以將未標注區(qū)域設(shè)為背景有助于提高模型訓(xùn)練的精度。