이미지는 2차원(2D)이지만 자율주행차와 기타 기술은 3차원(3D) 세계에서 탐색해야 합니다. 연구원들은 인공 지능(AI)이 2D 이미지에서 3D 정보를 추출하는 데 도움이 되는 새로운 방법을 개발하여 카메라를 이러한 신흥 기술에 더욱 유용한 도구로 만들었습니다.
“2D 이미지에서 3D 정보를 추출하는 현재 기술은 훌륭하지만 충분하지 않습니다.”라고 해당 연구의 공동 저자이자 노스캐롤라이나 주립 대학의 전기 및 컴퓨터 공학 부교수인 Tianfu Wu는 말합니다. “MonoXiver라고 불리는 우리의 새로운 방법은 기존 기술과 함께 사용할 수 있으며 훨씬 더 정확합니다.”
이 작업은 자율주행차와 같은 애플리케이션에 특히 유용합니다. 이는 레이저를 사용하여 거리를 측정하는 LIDAR와 같이 3D 공간을 탐색하는 데 사용되는 다른 도구보다 카메라가 저렴하기 때문입니다. 카메라는 다른 기술보다 저렴하기 때문에 자율주행차 설계자는 여러 대의 카메라를 설치하여 시스템의 중복성을 높일 수 있습니다. 하지만 이는 자율주행차에 탑재된 AI가 카메라로 촬영한 2D 이미지에서 3D 내비게이션 정보를 추출할 수 있는 경우에만 유용하다. 이것이 바로 MonoXiver가 등장하는 곳입니다.
2D 이미지에서 3D 데이터를 추출하는 기존 기술 – 예: 모노콘 기술 Wu와 그의 공동 작업자가 개발한 이 제품은 “경계 상자”를 활용합니다. 특히 이러한 기술은 AI를 훈련시켜 2D 이미지를 스캔하고 거리의 모든 자동차와 같은 2D 이미지의 객체 주위에 3D 경계 상자를 배치합니다. 이 상자는 정육면체이고 8개의 점이 있습니다. 신발 상자의 모서리를 생각해 보세요. 경계 상자는 AI가 이미지에 있는 개체의 크기와 각 개체가 다른 개체와 관련된 위치를 추정하는 데 도움이 됩니다. 즉, 경계 상자는 AI가 도로 위의 다른 자동차와 비교하여 자동차의 크기와 위치를 결정하는 데 도움이 될 수 있습니다.
그러나 기존 소프트웨어 경계 상자는 불완전하여 2D 이미지에 표시된 차량 또는 기타 객체의 일부를 포함하지 못하는 경우가 많습니다.
새로운 MonoXiver 방법은 각 경계 상자를 시작점 또는 앵커로 사용하고 AI가 각 경계 상자 주변 영역에 대한 두 번째 분석을 수행하도록 합니다. 이 두 번째 분석으로 인해 프로그램은 앵커 주변에 많은 추가 경계 상자를 생성합니다.
어떤 보조 상자가 물체의 “누락된” 부분을 가장 잘 포착할 수 있는지 결정하기 위해 AI는 두 가지 비교를 수행합니다. 한 가지 비교는 각 하위 사각형의 “기하학”을 살펴보고 앵커 사각형의 모양과 일치하는 모양이 포함되어 있는지 확인합니다. 다른 비교에서는 각 보조 상자의 “외관”을 살펴보고 동점 상자 내부의 상자와 유사한 색상이나 기타 시각적 특성이 있는지 확인합니다.
Wu는 “여기서 중요한 발전 중 하나는 MonoXiver를 통해 하향식 샘플링 기술(2차 경계 상자 생성 및 분석)을 매우 효율적으로 실행할 수 있다는 점입니다.”라고 말했습니다.
MonoXiver 방법의 정확성을 측정하기 위해 연구원들은 두 가지 2D 이미지 데이터 세트, 즉 잘 확립된 KITTI 데이터 세트와 더 까다로운 대규모 Waymo 데이터 세트를 사용하여 이를 테스트했습니다.
Wu는 “우리는 MonoCon 및 2D 이미지에서 3D 데이터를 추출하도록 설계된 다른 두 가지 기존 프로그램과 함께 MonoXiver 방법을 사용했는데 MonoXiver는 세 가지 프로그램 모두의 성능을 크게 향상시켰습니다.”라고 말했습니다. “MonoCon과 함께 MonoXiver를 사용할 때 최고의 성능을 얻었습니다.
Wu는 “이러한 개선으로 인해 상대적으로 적은 계산 오버헤드가 발생한다는 점을 기억하는 것도 중요합니다.”라고 말했습니다. “예를 들어 MonoCon은 자체적으로 초당 55프레임으로 실행될 수 있습니다. 그러나 MonoXiver 방법을 통합하면 초당 40프레임으로 속도가 느려지지만 여전히 실용으로는 충분히 빠릅니다.
Wu는 “우리는 이 작업에 대해 매우 기쁘게 생각하며 자율주행차 및 기타 응용 분야에 사용할 수 있도록 계속해서 평가하고 미세 조정할 것입니다.”라고 말했습니다.
종이, “수신기에 의한 3D 서라운드 노이즈 감소를 통한 단안 3D 물체 감지“는 10월 4일 프랑스 파리에서 열리는 컴퓨터 비전 국제회의에서 발표될 예정이다. 논문의 제1저자는 NC State 박사과정 학생인 Xianpeng Liu이다. 논문은 박사과정을 마친 Kelvin Cheng이 공동 집필했다. NC 주립대 학생, 센트럴 플로리다 대학의 Si Cheng, Ant Group의 Nan Xue, 시애틀 및 Westlake 대학의 OPPO 연구 센터의 Guo-Jun Qi.
이 작업은 보조금 W911NF1810295 및 W911NF2210010에 따라 미 육군 연구실의 지원을 받아 수행되었습니다. 국립 과학 재단(National Science Foundation)의 보조금 번호 1909644, 1822477, 2024688 및 2013451에 따라.
/일반 출시. 원래 조직/저자의 이 자료는 본질적으로 연대순일 수 있으며 명확성, 스타일 및 길이를 위해 편집되었습니다. Mirage.News는 기업의 입장이나 당사자를 받아들이지 않으며 여기에 표현된 모든 의견, 입장 및 결론은 전적으로 저자의 것입니다. 전체 내용은 여기에서 확인하세요.