IBM и НАСА обединяват сили за разкриването на нови тайни за Земята
Изменението на климата води до увеличаване на горещините и сушата, които подхранват горските пожари. Как ще се отрази димът от тези пожари върху качеството на въздуха? Какво ще е влиянието на горещите вълни през изминалата година върху реколтата от царевица и пшеница?
Това са само някои от въпросите, на които учените биха искали да си отговорят, като за целта създават милиони научни статии за процесите на Земята и проучват планини от сателитни изображения.
За да улеснят тази задача на научната общност, НАСА и IBM обявиха ново сътрудничество, чиято цел е създаването на модели на основата на изкуствен интелект, които да анализират петабайти от текстове и данни от дистанционно наблюдение, става ясно от сайта на технологичния гигант.
"Ползите няма да са само за НАСА, но и за много други агенции и организации", казва Рахул Рамачандран, старши научен сътрудник в Центъра за космически полети "Маршал" на космическата агенция. "Надяваме се, че тези модели ще направят информацията и знанията по-достъпни за всички и ще насърчат хората да създават приложения, които улесняват използването на нашите масиви от данни, за да се правят открития и да се вземат решения въз основа на най-новите научни постижения."
Като цяло моделите за изкуствен интелект поглъщат огромни количества необработени данни и без изрични инструкции откриват основните зависимости между тях, както и тяхната структура. Ако един модел бъде обучен в основни линии, той може след това лесно да бъде пригоден за изцяло нова задача с ограничен набор от ръчно маркирани примери.
Една от основните пречки пред прилагането на машинно обучение към данни от дистанционни изследвания на природни явления е липсата на обучителни примери - обекти като дървета и земеделски култури в сателитни данни, сегментирани и маркирани от експерти, така че компютърът да знае върху какви характеристики да се фокусира.
Проектът на НАСА и IBM цели да премахне тази пречка. Космическата агенция разполага със 70 петабайта данни за природните науки - брой, който се очаква да се увеличи четирикратно с неотдавнашното стартиране на мисията Surface Water and Ocean Topography (SWOT) и инициативата NISAR, която ще измерва променящите се екосистеми, динамичните повърхности и ледените маси на Земята и трябва да започне през 2024 г.
Рамачандран се надява, че моделите, разработени съвместно с IBM, могат да увеличат многократно полезността на данните на НАСА. За целта ще бъдат изградени два фундаментални модела.
Ядрен ракетен двигател, разработван от НАСА, приближава човека до Марс С помощта на тази нова технология астронавтите биха могли да пътуват до и от дълбокия Космос по-бързо от всякога
Първият ще бъде обучен върху масиви от научни списания за природни науки. Неговата задача ще бъде да организира тематично литературата по различните теми и да улесни търсенето и откриването на нови знания.
Вторият модел ще бъде обучен върху популярния набор от данни на USGS - Harmonized Landsat Sentinel-2 (HLS) на космическата агенция, който отразява промените в земеползването, запечатани от спътници в околоземната орбита.
Последващите приложения, които могат да имат тези два модела, включват откриване на потенциални природни бедствия и проследяване на промените в растителността и местообитанията на дивите животни, което ще помогне за управлението на природните ресурси.
Лесен достъп до всичко, което сме научили за Земята
Голяма част от литературата в областта на природните науки е написана с малки букви, изпълнена е със сложни понятия и често липсва контекст, който би позволил на неспециалистите да се потопят и бързо да навлязат в дадена тема. Един основен модел за организиране на цялата тази информация би могъл значително да опрости процеса на търсене и откриване.
IBM изгражда именно такъв, като използва близо 300 000 статии от списания, публикувани от AGU и AMS, наред с други научни организации. Към днешна дата изследователите са в процес на фина настройка на езиковия модел, а НАСА разработва еталони за измерване на ефективността му.
След като бъде напълно обучен, той ще бъде интегриран с PrimeQA - многоезична платформа с отворен код, която дава отговори на различни въпроси, създадена от IBM. Крайната цел е когато даден потребител въведе въпроса: "Как аерозолите ще повлияят на изменението на климата?", моделът да може да обобщи отговора на база на най-новите научни статии по темата и да даде възможно най-много свързани материали за контекст.
Списъкът с потенциални потребители на подобна система включва учени, занимаващи се с изучаване на Земята и работата с данни, политици и обществени организации.
"Целта ни е да разкрием това знание, което често в момента остава скрито, за да могат повече хора да го използват", казва Рамачандран. "Моделът би могъл да помогне на потребителите да намерят подходящи изследвания и набори от данни в областта, която ги интересува. Той би могъл също така да помогне за идентифициране на теми, към които има нарастващ интерес, което ще позволи на НАСА и други научни агенции да запълват пропуските в тях".
НАСА обмисля да изгради кислороден тръбопровод на ЛунатаLunar South Pole Oxygen Pipeline (LSPOP) ще се свърже с центъра за добив на лед, който НАСА планира да изгради на южния лунен полюс
Обстоен поглед върху климатичните условия
Второто направление, в което ще си партнират IBM и НАСА, е насочено към изграждането на основополагащ модел, който да улесни разработването на AI приложения за анализ на сателитни данни в голям мащаб. IBM започва с набора от данни HLS и ако успее, ще се заеме с MERRA-2, който съдържа информация за атмосферни наблюдения и може да подобри значително приложенията за прогнозиране на времето и климата.
"Красотата на моделите е в това, че те потенциално могат да се използват за много приложения надолу по веригата", каза Рамачандран.
Учените използват HLS, за да разберат и прогнозират къде се изсичат гори, къде се разширяват градове и къде ще се увеличат или намалят добивите на земеделски култури. Практическите приложения включват също така координиране на реакциите при природни бедствия, наблюдение на минни обекти и проследяване на инвазивни видове.
Повечето подобни модели досега са базирани върху думи, но изследователите се надяват, че те ще могат да се справят също толкова ефективно и на база на изображения.
"Засега резултатите ни са обещаващи", казва изследователят от IBM Рагу Ганти. "Ако успеем да изградим модел на основата на HLS, ще има хиляди други набори от данни от дистанционно наблюдение, които биха могли да се възползват от него, проправяйки пътя за нови приложения и открития."