راهنمای ساده بینایی رایانه در خرده فروشی

راهنمای ساده بینایی رایانه در خرده فروشی

چرا از روباتیک استفاده می کنیم وقتی مشتری ارزان ترین ربات موجود است؟

عکس توسط Korie Cull در Unsplash

فناوری خرده فروشی به سرعت در حال پیشرفت است. هوش مصنوعی ، به ویژه ، موارد کاربرد جالبی دارد که می تواند به طور گسترده در کل صنعت مورد استفاده قرار گیرد. آینده خرده فروشی اینجاست و شما را می بیند.

بهبود بازی تنیس با دید کامپیوتر

بهبود بازی تنیس با دید کامپیوتر

تفسیر تصویری و تصویری دیجیتالی ، که به عنوان بینایی رایانه ای شناخته می شود ، در دهه گذشته بسیار توسعه یافته است. شرکت هایی مانند Sportlogiq از این فناوری برای ردیابی حرکت بازیکنان و مسیر حرکت توپ استفاده می کنند و نوع جدیدی از تجزیه و تحلیل و بینش عمیق را در اختیار مربیان و بازیکنان قرار می دهند. در یک پروژه اخیر ، ما با توسعه یک مربی تنیس کاملاً دیجیتال ، بینایی رایانه را بیشتر مورد بررسی قرار دادیم. تنیسورها باید بتوانند خود را ضبط کنند ، فیلم را بارگذاری کنند و تجزیه و تحلیل بازی خود را دریافت کنند. به طور دقیق تر ، آنها باید در مورد مواردی که برای بازی در تنیس بسیار مهم است ، بازخورد بگیرند: زمان نوسانات نسبت به پرواز توپ ، موقعیت بدن و زاویه ها و منحنی نوسانات نسبت به حالت حرفه ای بازیکنان.

در این مقاله ما نحوه ساختن یک نمونه اولیه کاملاً کارآمد که می تواند همه اینها را انجام دهد ، و موارد دیگر را توضیح خواهیم داد.

تشخیص حرکت بدن

در ابتدا ، ما باید راهی برای تشخیص حرکت و حالت بدن پیدا کنیم. "OpenPose" آخرین وضعیت در برآورد ژست انسان است ، بنابراین یک نقطه شروع طبیعی برای نمونه اولیه ما بود.

ما از فیلم به عنوان وسیله ای برای تشخیص حرکات بدن با تمرکز بر روی هر فریم از یک مورد استفاده کردیم. توالی. برای به دست آوردن تفسیر دقیق افراد در یک تصویر یا فیلم ، اعضای بدن آنها باید با برخی از نکات کلیدی مشخص شود.

نکات کلیدی ، در این مورد ، به قسمت های بدن ، یعنی مفاصل و اندام ها اشاره دارد. ، در مجموع بیش از سی نفر. برای بدست آوردن نکات کلیدی از شبکه های عصبی کانولوشن (CNN) استفاده کردیم ، زیرا این یکی از قابل اطمینان ترین روش ها برای به دست آوردن این نوع داده ها است. CNN ها شباهت زیادی به یک شبکه عصبی مصنوعی ساده دارند ، با این تفاوت که معماری CNN برای ورودی بصری طراحی شده است. ) به دنبال ارتباط احتمالی بین آنها هستند. از اینجا ، چند روش برای ساختن و برآورد ژست وجود دارد. موردی که انتخاب کردیم بر اساس یک مدل گرافیکی مبتنی بر درخت است که رابطه بین مفاصل مجاور را با استفاده از قوانین مکانیک بدن انسان توصیف می کند.

هنگامی که ژست گرفتید ، می توانید انواع کارها مانند برآورد را انجام دهید. سرعت چرخش ، زاویه مفصل و غیره اگر واقعاً کنجکاو هستید و می خواهید بیشتر بخوانید ، این مقاله را توصیه می کنیم. حل آن بسیار مشکل تر از تنها با یک نفر است ، زیرا هر قاب ورودی دارای دو یا چند نقطه/مفصل کلیدی است. نگاشتن آنها در حالت انسانی کار ساده ای نیست (حتی برای چشم انسان ، چه رسد به کامپیوتر). دو راهبرد معمول برای مقابله با آن وجود دارد.

روشی که به اصطلاح از بالا به پایین گفته می شود ابتدا از تشخیص شی استفاده می کند و سپس برای هر شی (شخص) مشخص شده از برآورد یک نفره استفاده می کند. مشکل این رویکرد این است که در صورت عدم تشخیص هیچگونه خطای احتمالی وجود ندارد ، همانطور که در صورت نزدیک بودن فرد به راحتی انجام می شود. مدت زمانزمان اجرا نیز متناسب با تعداد افراد موجود در تصویر خواهد بود و به طور بالقوه بسیار کند می شود. بدن درست معایب اینجا نیز ، بسته به میزان نقاط کلیدی ، می تواند زمان پردازش بسیار طولانی برای یک تصویر باشد.

ردیابی راکت

کار ما با برآورد ژست انسانی نتایج رضایت بخشی به دست آوردیم ، اما برای این نمونه اولیه به موارد بیشتری نیاز داشتیم. برای بازیکنان تنیس ، یکی از مهمترین تکنیک های تسلط بر یادگیری نحوه چرخاندن راکت است. یادگیری نحوه ایستادن و نحوه شروع و پایان دادن به چرخش برای یک شوت عالی بسیار مهم است ، بنابراین تصمیم گرفتیم حرکت راکت را دنبال کنیم.

این کار را می توان با آموزش مجدد یک مدل موجود با حاشیه نویسی انجام داد. تصاویری از بازیکنان تنیس که راکت را در دست دارند. با این حال ، حاشیه نویسی تعداد تصاویر مورد نیاز برای تمرین مجدد بسیار چالش برانگیز بود-بنابراین ما مجبور بودیم رویکرد متفاوتی را بیابیم.

با مشاهده بازی های تنیس از نزدیک ، متوجه شدیم که مچ دست و پایه راکت با هم حرکت کنید کتابخانه ای که ما از آن استفاده می کنیم ، فهرستی کامل از تمام نکات کلیدی و اتصالات مرتبط را ارائه می دهد. این اطلاعات برای مورد استفاده ما مفید است اما کامل نیست. با سفارشی سازی کتابخانه "tf-pose-estisation" ، می توانیم از مچ دست خود به عنوان پایه ای برای ردیابی چرخش بازیکنان استفاده کنیم. از آخرین فریم پردازش شده برای ردیابی نوسان. ما برخی تغییرات را در ماژول پردازش قاب (جایی که نقاط کلیدی و اتصالات مشخص شده اند) انجام دادیم تا بتوانیم وضعیت آخرین فریم پردازش شده را ذخیره کنیم. با ترکیب اطلاعات اسکلت ، متشکل از نقاط کلیدی و مفاصل ، در قاب قبلی و فعلی ، می توانیم به راحتی حرکت مچ دست را پیگیری کنیم.

چرخش مانند سرنا

نمونه اولیه یک گام فراتر با تجزیه و تحلیل نوسانات بازیکنان حرفه ای ، می توانیم ویژگی را ایجاد کنیم که در آن کاربر چرخش خود را با حرفه ای ها مقایسه کرده و نحوه بهبود را بیاموزد. برای انجام این کار ، ما باید مطمئن شویم که ویدیوی کاربر به گونه ای ضبط شده است که نکات کلیدی مورد نیاز قابل مشاهده باشد. ما زمان زیادی را صرف تحقیق در مورد بهترین نقطه برای این کار کردیم تا بتوانیم هر چه بهتر کار کنیم.

در تنیس شوت های خاصی وجود دارد که بیشتر مورد استفاده قرار می گیرد ، به عنوان مثال. فورهند ، بک باند ، سرو ، و غیره. ما می خواهیم به طور م theseثر این نوسانات را در پردازش پس از استخراج و تحلیل کنیم. این می تواند با سفارشی سازی بیشتر کتابخانه به دست آید. ما قبلاً تغییراتی برای پیگیری آخرین حالت برآورد شده ایجاد کرده ایم و با ترکیب اطلاعات حالت فعلی و قبلی می توان نوسان را استخراج کرد. برای اینکه این کار مفید باشد ، باید موقعیت نسبی مچ دست را تا شانه ها ، لگن و زانو بررسی کنیم. با دانستن اینکه بازیکن درست یا چپ دست است ، می توان به درستی تشخیص داد که یک نوسان خاص فورهند ، پشت سر است یا سرو.

برای اینکه کاربر بتواند نوسان خود را بایک بازیکن حرفه ای ، ما باید نوع چرخش ، قد بازیکن ، دست و غیره را در نظر بگیریم و نوع چرخش و دستی را که قبلاً پوشش داده ایم. برای حل مسئله با تفاوت در ارتفاع ، ما نوسان کاربر و حرفه ای را در یک مختصات یکسان شروع می کنیم ، که این نوسان را به راحتی قابل مقایسه می کند و بازخورد ارزشمندی را برای کاربر ارائه می دهد.

پردازش و بازخورد

پس از بارگذاری ویدیوی ضبط شده توسط کاربر ، پردازش روی سرور انجام می شود. برای یک کلیپ 30 ثانیه ای ، که بیش از اندازه کافی برای یک چرخش فورهند است ، ما توانستیم خروجی را در عرض یک دقیقه پردازش کرده و برگردانیم.

در حالت ایده آل ، ما بازخورد بلادرنگ را می خواهیم. به اصطلاح تشخیص و برآورد دستگاه ، راهی عالی برای انجام این کار است. با عرضه هرچه بیشتر دستگاه های تلفن همراه ، اکنون می توان از مدلهای یادگیری ماشین به طور مستقیم در تلفن استفاده کرد. ما به استفاده از tensorflow lite ، که برای دستگاه های تلفن همراه ساخته شده است ، پرداختیم ، اما پس از آزمایش با "tf.js" برای برآورد ژست روی دستگاه ، تصمیم گرفتیم آن را رها کنیم. نتایج به سادگی قابل اعتماد نبودند تا بازخورد مفیدی به بازیکن بدهند.

در اینجا نمونه ای از تجزیه و تحلیل پیش دستی آورده شده است. تجزیه و تحلیل بازخورد کاربر را در مورد حالت و چرخش ارائه می دهد:

پیشرفتهای بیشتر

در مجموع ما از آنچه با نمونه اولیه به دست آوردیم بسیار خوشحال بودیم. با این حال ، چند مورد را می توان بهبود بخشید ، مانند تشخیص روی دستگاه برای بهبود سوار شدن کاربر و کالیبراسیون قرار دادن دوربین. ما همچنین می خواهیم تجزیه و تحلیل خود را با انواع چرخشی بیشتر ، مانند سرو ، درات شات و والی گسترش دهیم. قدرت دستگاه های امروزی همراه با کتابخانه های باز و در دسترس فرصت هایی را ایجاد می کند که ما چند سال پیش نداشتیم. ما مشتاق هستیم که این فناوری را در آینده نیز ادامه دهیم.

بینایی رایانه ای به یافتن پارکینگ ها برای نجات حیات وحش کمک می کند

بینایی رایانه ای به یافتن پارکینگ ها برای نجات حیات وحش کمک می کند

نوشته مایکل ایوانز ، مرکز دانشمندان ارشد حفاظت از داده ها برای حفاظت از نوآوری ، مدافعان حیات وحش

اگر در حال طوفان فکری برای کمک هستید حیات وحش با امنیت در محیط های شهری و حومه ما با انسان همکاری می کند ، "پارکینگ" ممکن است در لیست راه حل های شما بالا نباشد. اما پارکینگ ها برای دولت های محلی که سعی در حفظ تعادل حفاظت از زیستگاه حیات وحش با منابع انرژی تجدیدپذیر دارند ، کلیدی هستند. همانطور که پیداست ، پارکینگ ها مکان مناسبی برای صفحات انرژی خورشیدی هستند که در غیر این صورت ممکن است در فضاهای باز قرار بگیرند که حیات وحش برای زنده ماندن به آن احتیاج دارد. اگر پنل های خورشیدی را در پارکینگ ها قرار دهیم ، حیات وحش خانه های خود را حفظ می کند و ما از انرژی پاک بهره مند می شویم.

اما اگر می خواهید فضاهایی را پیدا کنید که جایگزین مناسبی برای پنل های خورشیدی باشند ، باید راهی کارآمد برای شناسایی پارکینگ هایی که شامل رانندگی در کل منطقه شهری نمی شوند. سازمان ما ، مدافعان حیات وحش ، یک سازمان غیرانتفاعی مستقر در ایالات متحده است که به حفاظت از حیات وحش بومی و زیستگاه آنها اختصاص داده شده است ، و یکی از زمینه های تمرکز ما پیشرفت منابع انرژی تجدیدپذیر مانند باد و خورشیدی به شیوه ای دوستدار حیات وحش است. این بدان معناست که هم سایت هایی با تأثیر کم-آنهایی که به حداقل تغییرات چشم اندازهای طبیعی نیاز دارند-برای تولید انرژی های تجدیدپذیر جدید و هم در مورد راه هایی که ممکن است از سایت های فعلی برای استفاده از حیات وحش استفاده شود ، فکر می کنند.

اخیراً ، مدافعان کار کردند با The Nature Conservancy (TNC) در دو پروژه از این قبیل که از Google Earth Engine و کتابخانه یادگیری عمیق TensorFlow برای تهیه نقشه های سفارشی از تصاویر ماهواره ای استفاده کردند.

یافتن سایتهای کم تأثیر برای تأسیسات خورشیدی

< p> نقشه راه خورشیدی لانگ آیلند ، همکاری Defenders و TNC در نیویورک ، با هدف پیشبرد سرعت تأسیسات انرژی خورشیدی در لانگ آیلند با شناسایی سایتهای کم تأثیر و کاهش درگیری در محل سکونت. یکی از مناطق اصلی هدف توسعه ، پارکینگ است. به طور مشابه ، بخش TNC در کارولینای شمالی در تلاش است تا مکان های خورشیدی کم ضربه را ترویج دهد و می خواست یک نقشه به روز از تمام آرایه های خورشیدی موجود در این ایالت تهیه کند. هر یک از این پروژه ها نیاز به نگاشت اشیاء خاص در منظره داشت: پارکینگ ها و آرایه های خورشیدی نصب شده روی زمین.

زمینه رو به رشد بینایی رایانه مستلزم شناسایی خودکار اشیاء در تصاویر است. این تکنیک ها از مدل های یادگیری عمیق برای آموزش رایانه ها برای تشخیص و مکان یابی چیزهایی مانند گربه ، ماشین و چهره در عکس ها استفاده می کنند. با ادغام Google Earth Engine و TensorFlow ، می توانیم از همین تکنیک ها برای تصاویر ماهواره ای استفاده کنیم و نقشه برداری از اشیاء خاص را در یک منظره به صورت خودکار انجام دهیم. علاقه ما نه تنها مکان یابی پارکینگ ها و آرایه های خورشیدی ، بلکه تعیین مرزهای این ویژگی ها بود - یک کار بینایی رایانه ای که به عنوان تقسیم بندی تصویر شناخته می شود. مدلهای تقسیم بندی تصویر با اختصاص هر پیکسل یک تصویر به یک دسته خاص ، شکل اجسام را تشخیص می دهند.

برای آموزش مدل تقسیم بندی تصویر ، به تصاویری نمونه نیاز داریم که در آن اشیایی که می خواهیم ترسیم کنیم برچسب گذاری شده اند. مارگارت فیلدز ، مدیر GIS TNC در کارولینای شمالی ، 663 چند ضلعی را به ما ارائه داد که ردپای آرایه های خورشیدی زمینی را در کارولینای شمالی تا سال 2016 مشخص می کردند. ما 645 دستگاه دیجیتالی دستی دریافت کردیممحدوده پارکینگ در شهر هانتینگتون ، نیویورک از کارن لو ، متخصص GIS با TNC در نیویورک.

ما با هم از این چند ضلعی ها برای برچسب زدن پیکسل های تصاویر ماهواره ای مختلف که نشان دهنده آرایه های خورشیدی یا پارکینگ ها هستند استفاده کردیم. ، دادن اطلاعات به مدلها برای پیش بینی (داده های طیفی در تصاویر) و برچسب هایی برای تعیین صحت این پیش بینی ها.

ما از دو رویکرد تقسیم بندی تصویر متفاوت اما مرتبط و منابع مختلف تصویر برای هر کار استفاده کردیم. برای ترسیم آرایه های خورشیدی موجود ، ما یک مدل U-Net را با استفاده از تصاویر چند طیفی از سیستم ماهواره ای Sentinel-2 آموزش دادیم. گردش کار ما عمدتا بر اساس نسخه نمایشی ارائه شده در Google Earth Engine GipHub بود.

ما از Earth Engine برای ایجاد موزاییک یک ماهه بدون ابر از تصاویر Sentinel-2 که کارولینای شمالی را در ژانویه 2016 پوشش می دهد ، استفاده کردیم. حاوی نوارهای آبی ، سبز ، قرمز ، نزدیک مادون قرمز و موج کوتاه مادون قرمز 1 و 2. ما موزاییک Sentinel-2 را استاندارد کردیم به طوری که هر نوار در مقیاس 0-1 قرار داشت و از صدک 99 هر باند به عنوان حداکثر مقدار استفاده شد. این تصویر ، همراه با برچسب های آرایه خورشیدی ، سپس به عنوان تراشه های تصویری 256 در 256 پیکسل نمونه برداری شد که در مدل U-Net قرار داده شد. برای آموزش یک مدل تقسیم بندی مفید تصویر ما از تصاویر برنامه ملی تصویربرداری کشاورزی (NAIP) ، که شامل 1 متر مربع پیکسل است ، برای ترسیم دقیق پارکینگ ها در لانگ آیلند استفاده کردیم. وضوح فضایی دقیق داده های NAIP با یک مبادله در وضوح اخیر و طیفی همراه بود. تصاویر NAIP هر دو سال یکبار در هر ایالت جمع آوری می شوند و جدیدترین تصویری که لانگ آیلند را پوشش می دهد مربوط به سال 2016 است. علاوه بر این ، تصاویر NAIP تنها قسمت های آبی ، سبز ، قرمز و مادون قرمز نزدیک طیف الکترومغناطیسی را ثبت می کنند. اگرچه این چهار باند اطلاعات طیفی کمتری نسبت به Sentinel-2 ارائه می دهند ، ساختار داده ها به ما اجازه می دهد از مدلی استفاده کنیم که از قبل بر روی میلیون ها عکس از مجموعه ImageNet آموزش دیده است.

DeepLab v3 یکی از پیشرفته ترین مدل های تقسیم بندی تصویر برای ترسیم اشیاء در عکس ها ایجاد شده است. مدل ها دارای ورودی 3 باند (معمولاً RGB) و تراشه های تصویر 512 5 512 پیکسل هستند. عکسها معمولاً مقادیر قرمز ، سبز و آبی را در مقیاس 0 تا 256 ثبت می کنند که همان NAIP است ، بنابراین نیازی به تجدید تصویر این تصاویر نداریم.

ایجاد مثالهای مثبت برای یادگیری تصویر

از آنجا که آرایه های خورشیدی و پارکینگ ها نسبت به چشم اندازهای مربوطه نسبتاً پراکنده هستند ، ما دو مرحله را برای اطمینان از مدل های خود به عنوان مثال های مثبت کافی برای یادگیری تشخیص این ویژگی ها انجام دادیم. اول ، ما محدوده فضایی نمونه برداری را در مناطق 5 کیلومتری ویژگی های دیجیتالی محدود کردیم. ثانیاً ، ما مرکزهای چند ضلعی های دیجیتالی را به مجموعه نقاط نمونه برداری اضافه کردیم. سپس از این نقاط برای ایجاد تراشه های تصویری استفاده می شود که برای آموزش مدل های U-Net و DeepLab استفاده می شود. اندکی بیش از 600 نمونه در بهترین حالت مجموعه داده های آموزشی اندک را نشان می دهد ، بنابراین پیاده سازی تصویر برای افزایش مصنوعی تغییرپذیری تصاویری که این مدلها بر روی آنها آموزش دیده اند بسیار مهم بود.

آرایه خورشیدی فوتوولتائیک با پوشش گیاهی بومی درلانگ آیلند. [اعتبار عکس: جسیکا قیمت]

ما هر دو مدل U-Net و DeepLab را با استفاده از نوت بوک های Colaboratory آموزش دادیم. این یک محیط محاسباتی پایتون مبتنی بر ابر را فراهم کرد که قبلاً برای اجرای TensorFlow پیکربندی شده است. با نصب API Earth Engine Python در نوت بوک ، ما قادر به پردازش تصاویر ، نمونه داده های آموزش و شروع مدلهای آموزشی به سرعت و به آسانی بودیم.

ما به هر مدل 50 دوره داده های آموزشی نشان دادیم و از TensorBoard برای معیارهای ضرر و دقت را در پایان هر دوره تجسم کنید. با استفاده از فراخوان های Keras ، وزن ها را از مدلی که در طول تمرین بهترین عملکرد را از نظر تقاطع روی اتحاد (IoU) داشت ، که میزان همپوشانی بین دو مجموعه شکل را اندازه گیری می کند ، ذخیره کردیم. هر دو مدل حداکثر IoU 80 درصد در مجموعه داده های اعتبارسنجی به دست آوردند ، در آن زمان ما برای اطمینان از پیش بینی و بررسی خروجی اطمینان کافی داشتیم. کد مورد استفاده برای این تجزیه و تحلیل ها در اینجا موجود است.

مثال پیش بینی آرایه های خورشیدی زمینی در کارولینای شمالی توسط مدل آموزش دیده U-Net [چپ] | پارکینگ های مدل آموزش دیده DeepLab v3 در هانتینگتون ، نیویورک [راست]

خروجی های ما 55 آرایه خورشیدی جدید تأیید شده در کارولینای شمالی و 2942 پارکینگ در شهر هانتینگتون را به همراه داشت. شما می توانید نتایج این مدلها را از طریق برنامه Google Earth Engine ما بررسی کنید.

گام بعدی ما این است که این مدلها را در جاهای دیگر اعمال کنیم. نقشه راه خورشیدی از نقشه دیجیتالی شده پارکینگ ها در لانگ آیلند برای نشستن استفاده می کند و مدل آموزش دیده DeepLab اکنون در کل ایالت نیویورک به کار گرفته می شود تا سریعاً پارکینگ ها را برای توسعه خورشیدی کم اثر در سراسر کشور ترسیم کند. ما همچنین پروژه ای را آغاز می کنیم تا بفهمیم چگونه احیای پوشش گیاهی بومی در سایت های خورشیدی می تواند به نفع گرده افشان در ایالت های مختلف باشد - به این معنی که ما باید مکان های خورشیدی موجود در این مکان ها را ترسیم کنیم.

در حالی که این دو مورد از مدافعان هستند. "پروژه های اولیه با استفاده از بینایی رایانه ای ، ما هیجان زده هستیم که هر دو می توانند درهای بیشتری را برای کمک به توسعه توسعه انرژی های تجدیدپذیر کم اثر باز کنند.