روبات‌ها چگونه می‌بینند؟

روبات‌ها چگونه می‌بینند؟

یک نفر از اون سمت اتاق یک توپ برای شما پرتاب می‌کند و شما آن را می‌گیرید. ساده بود مگه نه؟ در حقیقت این پروسه یکی از پیچیده‌ترین پروسه‌هایی است که تا به‌حال سعی کردیم آن را درک کنیم، چه برسد که بخواهیم مراحل آن را دوباره سازی کنیم! اختراع و ساخت دستگاهی که مانند انسان‌ها قدرت بینایی داشته باشد کار بسیار سختی است، نه فقط به‌ این علت که به کامپیوتر دستور بدهیم آن را انجام دهد، بلکه هنوز چگونگی انجام این کار در قدم اول را هم بلد نیستیم.

پروسه‌ای که رخ می‌دهد تقریبا به این شکل است: تصویر توپ از چشم شما عبور می‌کند و با شبکیه چشم شما برخورد می‌کند و شبکیه پس از انجام چند آنالیز اولیه آن را به مغز ارسال می‌کند و قشر بینایی آنالیزهای عمیق‌تری بر روی آن انجام می‌دهد. پس تصاویر را به بخش‌های دیگر قشر بینایی انتقال می‌دهد تا در آنجا تصویر را با هرآنچه که تا حالا مغز شناخته است، مقایسه می‌کند و سپس با توجه به ابعاد و ظاهر شی، آن را دسته بندی می‌کند و تشخیص می‌دهد که آن جسم چیست، حدودا چقدر وزن دارد و در ادامه مغز تصمیم به انجام کاری(واکنشی) می‌گیرد: دستتان را بلند می‌کنید و توپ را می‌گیرید. این عکس‌العمل به صورت ناخودآگاه و در پروسه دوم اتفاق می‌افتد و هیچوقت خطایی در آن رخ نمی‌دهد. بنابراین شبیه سازی مراحل دیدن تصاویر توسط انسان مشکل اصلی نیست، بلکه مشکل مجموعه‌ این مراحل است که عملکرد هرکدام به بخش دیگری وابسته است.

تا بحال کسی این مراحل را ساده تلقی نکرده است. البته به‌جز “ماروین مینسکی” نابغه‌ تکنولوژی Al(هوش مصنوعی) که در سال ۱۹۶۶ به یک دانش‌آموز دیپلمه چگونگی اتصال دوربین به کامپیوتر را آموزش داد و از او خواست که مراحل را شرح دهد. آن نوجوان امروز ۵۰ سال سن دارد و می‌گوید هنوز درحال کارکردن بر روی آن موضوع است!

مطالعات جدی در این زمینه از دهه ۵۰ و در سه بخش کلید خورد: ساخت چشم(سخت)، ساخت قشای بصری(خیلی سخت) و ساخت دیگر مراحل مغز(سخت‌ترین مرحله‌ای که تا بحال دیده شده).

دیدن

خلق یک چشم جدید، مرحله‌ای‌ است که بیشترین پیشرفت را در آن داشته‌ایم. در طول چند دهه گذشته، سنسورها و پردازشگرهای تصویری را خلق کرده‌ایم که به شکلی با توانایی‌های انسان قابل رقابت است. با وجود لنزهای اپتیکال بی‌نقص‌ و پیکسل‌های ساخته شده با دقت نانومتری، دقت و حساسیت دوربین‌های جدید را باید شگفت‌انگیز بنامیم. دوربین‌های جدید قادرند هزاران تصویر را در کسری از ثانیه ثبت کنند و فاصله را با دقت بالایی تشخیص دهند.

علی‌رغم وضوح بالای خروجی‌های این دوربین‌ها، هنوز تفاوت چشم‌گیری نسبت به دوربین‌های سوراخ سوزنی قرن ۱۹ مشاهده نمی‌کنیم. بهترین سنسور دوربین شناخته شده قادر به تشخیص یک توپ نبود، چه برسد به ارسال دستور برای گرفتن آن. به معنای دیگر سخت‌افزار بدون نرم‌افزار کاملا محدود است. این مسئله خود مشکل بزرگتری به حساب می‌آید. اما به لطف تکنولوژی دوربین‌های مدرن، سیستم غنی و انعطاف پذیری برای انجام کارهایمان فراهم شده‌است.

توضیح دادن

اینجا جای مناسبی برای توضیح و کالبدشکافی اعصاب نیست، اما کافی است که بگوییم بیشتر قسمت‌های مغز برای مراحل دیدن استفاده می‌شود و مغز انسان با دیدن و صحبت کردن تکامل پیدا می‌کند البته این ویژگی شامل سلول‌ها نیز می‌شود. میلیاردها سلول وظیفه دارند که الگوها را از سیگنال‌های شلوغ و بهم ریخته‌ شبکیه خارج کنند.

در صورت وجود کنتراست در طول یک خط یا زاویه خاص و یا حرکت سریع اشیاء در جهت خاص، حسگرهای چشم تحریک می‌شوند. شبکه‌های نرونی سطح بالاتر، این الگوها را مانند حلقه‌ی درحال حرکت به سمت بالا به الگوهای بزرگتری تبدیل می‌کنند. سپس شبکه‌ دیگری از نرون‌ها نیز با آنها هماهنگ می‌شود. این حلقه به رنگ سفید و دارای خط‌هایی به رنگ قرمز است و تصاویر با جزئیات کاملتری از این مواد اولیه به‌وجود می‌آیند.

یافتن لبه ها و دیگر ویژگی‌های تصویر با استفاده از هیستوگرامی از خطوط شیبدار و جهت‌دار در بخش‌های بصری مغز یافت می‌شود

این فرمول برای چند شی در فضای تحت کنترل قابل اجرا بود. اما تصور کنید که می‌خواهید تمام اشیا اطرافتان را به این شکل تعریف کنید، با زوایای مختلف با درجه نوردهی و حرکت متغیر و صدها ویژگی متفاوت دیگر. واضح است برای رسیدن به نوپا ترین درجه از این نوع شناخت، نیازمند حجم عظیمی از داده‌ها هستیم.

نگرش “ساخت از ابتدا تا انتها” با تقلید از آنچه در مغز یافته شده، امیدوارکننده‌تر است. یک کامپیوتر قادر به اجرای یک سری تغییرات بر روی تصویر است و می‌تواند لبه‌های جسم را تشخیص دهد و هم چنین روی اشیایی تغییر ایجاد کند که در یک تصویر آن را مشخص کرده‌ایم. این مراحل شامل مقدار عظیمی از معادلات ریاضی و آمار است که در کامپیوتر به اطلاعات تبدیل می‌شوند. کامپیوتر اشیایی را که مشاهده می‌کند را با اشکالی که برای شناسایی در اختیار دارد تطبیق می‌دهد. به روشی که مغز ما همین پروسه را انجام می‌دهد.

دانشمندان درحال کار بر روی اسمارت‌فون‌ها هستند که آنها را قادر سازند اشیایی که از دریچه دوربین دیده می‌شوند را تشخیص دهند و این کار را با نمایش دادن اسامی اشیا درون محیط، بر روی تصویر انجام می‌دهند. در اینجا نمونه تصویری از یک خیابان با لیبل‌های به شکل نمونه اولیه داریم.

چیزی که تصویر بالا نشان می‌دهد، نتیجه محاسبات انجام شده توسط کامپیوتر است. اجسامی که در تصویر بالا کامپیوتر آنها را نام‌گذاری کرده است، تا حد زیادی به واقعیت نزدیک هستند و خیلی از آنها را درست تشخیص داده است. در سال‌های اخیر به دلیل نیاز به حجم عظیمی از محاسبات، ساخت و بکارگیری شبکه‌های عصبی مصنوعی غیر عملی شده‌است و همچنین شاهد پیشرفت‌های جدی در زمینه محاسبات موازی بوده‌ایم و در این سالها هجوم دانشمندان به سمت استفاده از سیستم‌های تقلیدی مشابه سیستم مغز انسان افزایش یافته است. مراحل شناسایی الگوها نیز هر روز در حال سرعت گرفتن است و همواره شاهد پیشرفت‌هایمان در این زمینه هستیم.

درک کردن

شما می‌توانید سیستمی طراحی کنید که هر نوع سیبی را در هر زاویه‌ای، درحال حرکت یا ثابت تشخیص دهد حتی به شکل گاز گرفته شده، اما این سیستم قادر به تشخیص پرتغال نخواهد بود! به همین دلیل سیستم نمی‌تواند به شما بگوید سیب چیست؟ آیا قابل خوردن است؟ سایز آن چقدر است؟ یا اینکه چه کاربردی خواهد داشت؟ مشکل اینجا است که نرم‌افزارها و سخت‌افزارها بدون داشتن سیستم‌عامل، کاربرد زیادی برای شما نخواهند داشت.

این سیستم‌عامل برای ما، همان بخش باقیمانده مغزمان است که شامل: حافظه کوتاه و بلند مدت، ورودی‌های به‌دست آمده از حواس مختلف، توجه و شناخت و میلیاردها درس مختلف بدست آمده از تریلیون‌ها تعامل شکل گرفته با دنیا است که با الگویی غیرقابل فهم نوشته شده‌اند. این بخش‌ها جهت استفاده شبکه متصل و پیچیده نورون‌های عصبی تشکیل شده‌اند که خود این شبکه نورون‌ها پیچیده‌تر از هرچیزی است که تا به‌ حال با آن برخورد کرده‌ایم.

ما در مرز علم کامپیوتر و به‌طور عمومی‌تر، در مرض علم هوش مصنوعی قرار داریم که متاسفانه تنها در حال چرخیدن به دور خودمان هستیم. با وجود داشمندان کامپوتر، مهندسین، روانشناسان و دانشمندان علوم اعصاب، به سختی می‌توانیم تعریف ساده‌ای از کاربرد مغزمان داشته‌ باشیم و بدتر اینکه حتی قادر به شبیه سازی آن هم نیستیم. اما این بدین معنی نیست که علم در بن بست قرار گرفته‌ باشد. آینده بینایی کامپیوتر در ساخت سیستم‌های قوی و تخصصی است که از طریق سیستم‌های گسترده‌تری که تمرکز خود را روی مفاهیم  پیچیده‌ای همچون “درک مفهوم”، “تمرکز” و “عمل کردن” قرار داده‌اند، به وجود می‌آیند.

با وجود اظهاراتمان، بینایی کامپیوتر حتی در ابتدایی ترین مرحله خود، باز هم خارق‌العاده عمل میکند. در دوربین‌ها، قادر به تشخیص چهره و لبخند است. در ماشین‌های بدون سرنشین، قادر به خواندن علائم ترافیکی و دیدن رهگذران است. در ربات‌های موجود در کارخانه‌ها، قادر به نظارت بر دستگاه‌ها و حرکت در میان کارکنان کارخانه است. برای رساندن سطح بینایی کامپیوترها به سطح و کیفیت انسانی، راه بسیار طولانی در پیش داریم، اما با توج به حجم عظیم و پیچیدگی این تکنولوژی، همین که کامپوترها تا به امروز قابلیت دیدن دارند جای شگفتی دارد.

منبع: ITiran

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *