یزدفردا: محققان سیستم هوش مصنوعی جدیدی را توسعه داده‌اند که می‌تواند براساس صدایی ضبط‌‌شده، تصاویر دقیقی از آن محل تولید کند. در این تحقیق، ابتدا چند صدای ضبط‌شده از خیابان‌های شهرهای مختلف جهان به هو‌ش مصنو‌عی داده شد، سپس مدل تصاویر دقیقی برای خیابان‌ها تولید کرد.

به گزارش یزدفردا: طبق گزارش‌های منتشرشده، تیمی از محققان دانشگاه تگزاس در این تحقیق به‌دنبال پاسخ این سؤال بودند که هوش مصنوعی فقط با بریده‌های صوتی می‌تواند ویژگی‌های بصری محیط خود را درک کند یا خیر. مهارتی که زمانی تصور می‌شد منحصر به انسان‌هاست.

توانایی هوش مصنوعی در درک محیط از صدای ضبط‌شده

آنها در مقاله خود توضیح می‌دهند که ابتدا 100 کلیپ ویدیویی و صوتی یوتوب از شهرهایی در آمریکای شمالی، آسیا و اروپا را جمع‌ کردند. سپس از این کلیپ‌ها برای آموزش مدل هوش مصنوعی استفاده کردند که می‌تواند براساس ورودی‌های صوتی، تصاویری با وضوح بالا از محیط‌های مختلف تولید کند.

در مرحله بعدی، به این هوش‌‌‌ مصنوعی کلیپ‌های 10 ثانیه‌ای صوتی داده و از آن خواسته شد تصاویری با وضوح بالا از شکل ظاهری محیط تولید کند.

برای تعیین میزان دقت تصاویر نیز گروهی از افراد در نقش داور در تحقیق حضور داشتند. برای این داوران خروجی هوش مصنوعی و صدایی که تصاویر براساس آنها تولید شده، پخش شد سپس از آنها خواسته شد تشخیص بدهند کدام تصویر با صدا مطابقت دارد. به‌طور میانگین 80 درصد مواقع تشخیص داوران درست بود.

طبق بیانیه‌ای که دانشگاه تگزاس منتشر کرده، دقت تصاویر ساخته این مدل هوش مصنوعی نشان می‌دهد ماشین‌ها به‌خوبی می‌توانند ارتباط انسانی بین ادراک صوتی و تصویری محیط‌ها را شبیه‌سازی کنند.

«یوهائو کانگ»، یکی از نویسندگان این مطالعه، می‌گوید:

«تحقیق ما نشان می‌دهد محیط‌های صوتی به اندازه کافی حاوی نشانه‌های بصری برای تولید تصاویر قابل‌تشخیص از مناظر خیابانی هستند که مکان‌های مختلف در آن با دقت نشان داده می‌شود؛ یعنی می‌توانید محیط‌های آکوستیک را به نمایش‌های بصری واضح و به‌طور مؤثرتر صداها را به مناظر تبدیل کنید.»

  • نویسنده : یزدفردا
  • منبع خبر : خبرگزاری فردا