अनुसंधान की मुख्य बातें
डॉ. गौरव भटनागर एवं अन्य को उनके शोध आलेख को IEEE ट्रांजेक्शन्स ऑन डिपेंडेबल एंड सिक्योर कंप्यूटिंग पत्रिका में स्वीकृत किए जाने पर बधाई।

शीर्षक: Knowledge driven Description Synthesis for Floor Plan Interpretation
लेखक: S. Goyal, C. Chattopadhyay and G. Bhatnagar
Journal: International Journal on Document Analysis and Recognition
Volume: In Press
वर्ष: 2021
प्रकाशक: Springer
सार: छवि कैप्शनिंग AI के क्षेत्र में एक व्यापक रूप से ज्ञात समस्या है। फ़्लोर प्लान छवियों से कैप्शन जनरेशन के इनडोर पथ नियोजन, रियल एस्टेट और वास्तुशिल्प समाधान प्रदान करने में अनुप्रयोग हैं। फ़्लोर प्लान छवियों से कैप्शन या अर्ध-संरचित विवरण उत्पन्न करने के लिए साहित्य में कई तरीकों की खोज की गई है। चूँकि केवल कैप्शन बारीक विवरणों को पकड़ने के लिए पर्याप्त नहीं है, इसलिए शोधकर्ताओं ने छवियों से वर्णनात्मक पैराग्राफ़ भी प्रस्तावित किए हैं। हालाँकि, इन विवरणों में एक कठोर संरचना होती है और लचीलापन की कमी होती है, जिससे उन्हें वास्तविक समय के परिदृश्यों में उपयोग करना मुश्किल हो जाता है। यह पेपर फ़्लोर प्लान छवियों से टेक्स्ट जनरेशन के लिए दो मॉडल, इमेज क्यू (DSIC) से विवरण संश्लेषण और ट्रांसफ़ॉर्मर-आधारित विवरण जनरेशन (TBDG) प्रदान करता है। ये दोनों मॉडल दृश्य विशेषता निष्कर्षण और पाठ निर्माण के लिए आधुनिक डीप न्यूरल नेटवर्क का लाभ उठाते हैं। दोनों मॉडलों के बीच अंतर फ़्लोर प्लान छवि से इनपुट लेने के तरीके में है। DSIC मॉडल केवल डीप न्यूरल नेटवर्क द्वारा स्वचालित रूप से निकाले गए विज़ुअल फ़ीचर लेता है, जबकि TBDG मॉडल पैराग्राफ़ के साथ इनपुट फ़्लोर प्लान छवियों से निकाले गए टेक्स्ट कैप्शन को सीखता है। TBDG में उत्पन्न विशिष्ट कीवर्ड और पैराग्राफ़ के साथ उन्हें समझना इसे सामान्य फ़्लोर प्लान छवि में अधिक मज़बूत बनाता है। प्रस्तावित मॉडल की श्रेष्ठता दिखाने के लिए बड़े पैमाने पर सार्वजनिक रूप से उपलब्ध डेटासेट पर प्रयोग किए गए और अत्याधुनिक तकनीकों के साथ तुलना की गई।