توصيفگر ها :
بازسازي سهبعدي , تابع ضمني , ابر نقطه , بازسازي چند تصويره , يادگيري عميق
چكيده فارسي :
در سالهاي اخير، محققان حوزه بينايي كامپيوتر با استفاده از يادگيري عميق روشهاي بازسازي سهبعدي زيادي را ارائه دادهاند كه از بين آنها، روشهاي مبتني بر تابع ضمني نتايج بسيار خوبي بدست آوردهاند. در استفاده از تابع ضمني، ابتدا شبكه از تصوير ورودي ويژگي استخراج ميكند، سپس پيشبيني خود را به ازاي هر نقطه به صورت جداگانه انجام ميدهد. براي مثال تصميم ميگيرد كه نقطه بررسي درون شئ است يا بيرون آن، يا اينكه فاصله نقطه تا سطح شئ را پيشبيني ميكند. شئ سهبعدي با اجراي پيشبيني شبكه بر روي دستههايي از نقاط فضا ساخته ميشود. در بين روشهاي مبتني بر تابع ضمني، روشهايي كه از ويژگيهاي محلي تصوير براي تصميمگيري استفاده ميكنند موفقيت بالايي از خود نشان دادهاند. اما اين روشها عموما مدل دوربين تصوير را مدلهاي ساده متعامد و پرسپكتيو ضعيف در نظر ميگيرند، تا شبكه سريعتر همگرا شود. همچنين روشهاي مبتني بر تابع ضمني و ويژگيهاي محلي، در حالت چندتصويره، نياز به پارامترهاي دوربين دارند تا ويژگيهاي متناظر با يك نقطه را در تصويرهاي مختلف پيدا كنند. در اين پژوهش، روش يكتصويره و چندتصويرهاي ارائه ميشود كه مبتني بر تابع ضمني و ويژگيهاي محلي تصوير است. به ازاي هر تصوير ورودي شبكه، يك ابر نقطه تنك پيشبيني ميشود و براي پيدا كردن پارامترهاي خارجي دوربينها، از ثبت ابر نقطهها نسبت به هم استفاده ميشود. همچنين مدل دوربين، پرسپكتيو در نظر گرفته ميشود و براي تسريع همگرايي آموزش شبكه، از نرمالسازي عمق نقطه بررسي نسبت به مركز ابر نقطه پيشبيني شده استفاده ميشود. عملكرد شبكه با مدل دوربين پرسپكتيو را با شبكه رقيب مقايسه ميكنيم، كه از مدل دوربين پرسپكتيو ضعيف استفاده ميكند. همچنين عملكرد شبكه در بازسازيهاي سهبعدي چندتصويره، بدون نياز به پارامترهاي دوربين نشان داده ميشود، كه نشانگر كاربردي بودن الگوريتم پيشنهادي در استفاده واقعي است.
چكيده انگليسي :
In recent years, computer vision researchers have proposed several deep learning 3D reconstruction methods, with methods based on an implicit function representation finding great success. When using an implicit function, the network learns to extract features from the input image and make predictions separately for each point. For example, the network decides whether a query point is inside an object or outside of it, or it predicts the signed distance value of that point to the objectʹs surface. The 3D object is reconstructed by running the network on batches of points in 3D space. Out of the various existing methods based on implicit functions, methods using local image features produce state-of-the-art results. However, these methods generally assume simple camera models, such as the orthogonal or weak-perspective models, in order to facilitate network convergence and speed up the training process. Also, when it comes to multi-view, implicit function based methods widely require known camera parameters at test time in order to find corresponding features for a query point across images. In this research, a single-view and multi-view 3D reconstruction method is proposed that is based on the implicit function representation and local features. For each input image, a sparse point cloud is predicted, and point cloud registration is used to find relative camera parameters. A perspective camera model is assumed, and query point depth values are normalized relative to the average point of the predicted point cloud. The model performance is evaluated relative to a competing method using a weak-perspective projection camera. Furthermore, multi-view reconstruction results are presented, without the need of known camera parameters at test time. This shows the practicality of our method in real-life uses.