RSI 2023 (част 3) – Ученически институт по математика и информатика

от Жени Сендова

Адската седмица (the hell week)

Великият математик и преподавател Дьорд Пойа описва преподавателския процес с шеговитата фраза: One is preaching, everybody is sleeping, such a performance is called teaching (Един проповядва, всички спят, това представление се нарича обучение.) През последната, т. нар. адска седмица в RSI, дори и някой да си позволи да дремне, то в никакъв случай не е от скука, а от крайно изтощение. През годините съм свидетел на това как децата дават всичко от себе си в знак на благодарност към хората които създават най-благоприятната за работа атмосфера –обща зала за работа (за да не се чувстваш изолиран), специалисти от най-различни сфери, които ти помагат от техническото оформление на проекта до съдържателното му представяне – първо като статия, а после като устна презентация. Тютори, асистенти, Nobody-та – огромна армия от видими и невидими помощници са на линия (някои редактират английския, други следят доколко е оригинално изследването или отбелязват грешки в доказателството), но накрая всичко е в ръцете на автора на проекта.

Да припомним, че само 5 от писмените разработки се избират като представителни за съответната година и се публикуват цялостно в компендиума на CEE. До тази година в т. нар. „top 5 written prezentations” от България бяха влезли 13 души: Калоян Славов (2001), Веселин Димитров (2003), Антони Рангачев (2004), Галин Статев (2008), Георги Керчев (2009), Тодор Марков (2011), Калина Петрова (2012), Румен Данговски (2013), Христо Стоянов (2014), Димитър Карев (2016), Чавдар Лалов (2018), Виктор Колев (2020), Илияс Номан (2022).

Другата класация е за устна презентация ‒ 10 от 100-те участници се избират да представят проекта си пред цялата публика на RSI, менторите си и официални гости. Преди 2023 г. с такава чест бяха удостоени шестима български участници – Антони Рангачев (2004), Калина Петрова (2012), Петър Гайдаров (2014), Чавдар Лалов (2018), Димитър Чакъров (2019), Виктор Колев (2020)! Жури от изявени специалисти в различни области избира 5 устни презентации като най-добри. Димитър Чакъров бе избран от журито и в петицата.

А как бяха българските участници тази година? – ще попитате.

Българската нишка

Още на традиционната вечер на чуждестранните участници демонстрирахме кулинарни умения със собственоръчно омесена пита с яйца и сирене, а на фона на снимки от България изиграхме фолклорен танц с международно участие.

Под звуците на балкански фолклор

За моя радост българският екип действаше много задружно – Пешо ръководеше основно математическите проекти, а в моята група имаше проекти от няколко области, но повечето – с информатични приложения. Най-хубавото беше, че нашите ученици показаха не само солидна научна подготовка и презентационни умения, но и готовност да помагат на други ученици. И Ради, и Деян намериха време да ми асистират при редактирането на неработещи програми и непрецизни математически доказателства, а с Пешо провеждахме съвместни изслушвания на финалните репетиции на устните презентации.

Българският отбор

Няколко думи за по-младия тютор от България, Петър Гайдаров (RSI’14). Той ми асистираше на доброволни начала още през 2020 г. Оттогава насам се проявява като отличен професионалист‒ ментор на математически проекти и редовен тютор в RSI.

Достъпни ли математическите проекти за биолозите в RSI?

И в малко по-шеговита обстановка

Да му дадем думата за това как насърчава питомците си да използват подходящи метафори за абстрактни математически понятия.

Петър Гайдаров: Поех основно учениците, занимаващи се с математика. Темите им бяха доста разнообразни, включвайки два проекта по алгебра, един по алгебрична топология, шест комбинаторни проекта, два по теоретична физика и два проекта относно алгоритмична сложност и теория на игрите

Доволен съм, че немалко проекти грабнаха вниманието на публиката с начина, по който бяха представени. Например, проектът на Ханминг беше в сферата на алгебричната топология, но въпреки големия брой технически термини той успя да представи проекта си на разбираем език с поредица от метафори и умели аналогии. Например, той обясни група на кохомологиите, с помощта на ластик за коса. Михика успя да развесели всички, като решаваше линейни уравнения, за да намери възрастта на различните тютори в програмата. Хейзъл, се опита да представи тензорното произведение като танц, а пък Сринивас се отличи с употребата на динамични графики, с които визуализира игрите, които изследваше. Джоузеф влезе в 10-те представителни устни презентации, след като успя да визуализира понятието „Kleinian singularity“ като повърхнини, а после показа как са генерирани от стабилизаторите на определени групи. Алан пък влезе в избраната от журито представителна петица на устните презентации с изключително добър контакт с публиката. Много умело първоначално съобщи на публиката, че ще им направи две въведения, а след това обясни, че всъщност тези въведения представляват сблъсъка на две различни области, който се наблюдава в проекта му

Проектите в групата на Jenny the Great

Това е прякорът ми в RSI от доста години не за друго, а защото се падам нещо като „научна прабаба“ на учениците си – техните ментори или тютори са ми били ученици в по-стари издания на програмата.

Проектите в моята група тази година бяха доста разнообразни ‒ астрофизика, визуална психология, геометрия, операционни изследвания, квантова механика, изчислителна невронаука, машинно обучение на големи езикови модели, социална медицина. Сигурно се чудите какво разбирам аз от тези области. Истината е, че не толкова много в повечето от тях, но точно това е ценното в ситуацията. Научните ръководители на моите питомци бяха известни учени в съответните области. Докато работех с учениците си, редактирах текстовете им, слушах презентациите им в различни формати и непрекъснато задавах въпроси – не като на изпит, а от истински интерес. От една страна и аз научавах много (разработките в голямата си част са наистина иновативни), от друга – и учениците си даваха сметка у кого е вината, ако не разбирам обясненията имJ. Често заедно търсехме начини да направим твърде абстрактни идеи достъпни до по-широка публика, която се занимава с наука, но не точно в тяхната област. Този тип общуване се оказва решаващ в съвременната наука, защото почти целият прогрес в нея е интердисциплинарен и зависи от приноса на учени от различни сфери.

Част от моята помощ се състоеше и в това, да им препоръчам допълнителни ресурси ‒ запознах авторите на проектите по геометрия и математическо образование с виртуалния училищен кабинет по математика на ИМИ-БАН, а за проектите по астрофизика например се допитах включително и до доц. Владимир Божинов.

Кати и Абдулрахман се запознаха с Виртуалния училищен кабинет по математика

Разбира се използвам всяка възможност да изслушвам учениците (без значение дали са от моята група) докъде са я докарали с проекта си, с какви метафори и аналогии ще си послужат пред по-широка публика. Установила съм, че особено добре това става, когато разберат, че не са зависими от компютърните си слайдове – например в парка, изкачени на някоя статуя в кампуса или най-добре – на масата за пинг-понг по време на тренировка.

Да чуем и ученика ни с математически проект, Деян Хаджи-Манич.

Деян на поредния Milestone в групата на Пешо

Деян Хаджи-Манич: За мен не беше изненада, че RSI е специално и неповторимо преживяване. И въпреки това не знаех какво ме очаква. Цялата програма беше изключително интензивна, наситена с всякакви занимания, преобладаващо научни, но и много предпоставки за социализиране и просто забавление. Научих много за науката и изследователската дейност и имах възможността да видя много невероятни лектори от различни области. Тук хората са страхотни, умни и много дружелюбни, без значение от техния произход. Ние сме едно много разнообразна общност и винаги научавам интересни неща от другите.

Относно научната дейност, интересно ми бе дали ще правя проект по информатика или математика. Имаше вероятност да имам ментор по биоинформатика, но в крайна сметка работих по ръководството на докторант от Математическия департамент на MIT. Проблемите по математика на всички от нашата група бяха доста интересни, но също така и трудни. Темата на моя проект бе от областта на комбинаторната оптимизация. Да бъда честен, не бях изключително въодушевен от тази тема и имах усещането, че не мога да използвам някои от най-силните си страни. Трябваше доста неща да науча, преди да започна да изпробвам някакви подходи към проблема. Макар в крайна сметка да не получих някакъв значителен резултат, цялата изследователска дейност ме научи на много неща. От една страна научих повече математика (част от която по-тежка) не само самостоятелно, но и в ежедневни срещи-разговори с ментора си. Освен това придобих повече умения в това да пиша добре структуриран математически текст и да го представям по-ясно и пред членовете на Математическия департамент, и пред RSI-ци от различни специалности. Разбира се, има още накъде да се работи, но смятам, че постигнах прогрес. Сега като си погледна проекта от 11 клас, ме сърбят ръцете да го редактирам навсякъде J.

Явно го е направил, защото както научихме от публикацията на д-р Константин Делчев, Деян Хаджи-Манич е получил наградата на Society for Science на EUCYS с проект, който е на вододела между математиката и информатиката, с конкретен критерий за приближено определяне на изоморфизми на графи.

Както се разбра, Деян имаше готовност и за проект по информатика, но така стана по-добре, защото заедно с Ради имат поглед върху проектите и в двете области и имат какво да споделят с членовете на УчИМИ и Учи-БАН.

Другият ни участник, Радостин Чолаков, работи под ръководството на д-р Юун Ким (Yoon Kim, Computer Science & Artificial Intelligence Laboratory, MIT) върху квантуване на големи езикови модели от типа на използваните в ChatGPT. Най-впечатляващият резултат е, че моделът му успява не само да достигне, но дори и да подобри един от най-добрите методи за квантуване (QLoRА). С подобрения си метод Ради квантува езиковия модел LLaMA-2, публикуван през юли тази година.

Ради Чо с менторите си

Ето и неговите впечатления от изследователската част на RSI.

Радостин Чолаков (Ради Чо): По време на школата работих с Хан Гуо и проф. Юн Ким по проект за квантуване на големи езикови модели (Distributional Quantization of Large Language Models). В него изследвахме как можем да направим моделите като този, използван в ChatGPT, по-малки, за да могат да бъдат използвани на повече устройства и от повече хора.

Основната методика беше, че разглеждаме разпределението на теглата на тези модели и въз основа на това закръгляме тези тегла към по-малко на брой възможни стойности. Основните резултати са, че успяваме да достигнем и дори да подобрим текущите най-добри методи за квантуване, след като ги тествахме върху модела LLaMA-2, който Meta публикува едва преди две седмици (юли 2023 г.)

В началото имах леко стресиращо преживяване – опитвах се да възпроизведа последните изследвания в областта на квантуването на модели за машинно обучение. Създадох собствена модификация на известен алгоритъм и сравних резултатите със софтуерен пакет, поддържан от автора на този алгоритъм. Резултатите ми напълно съвпаднаха с неговите за някои входни данни, но при големи входове оригиналният софтуерен пакет връщаше значително по-големи грешки. Първоначално бях разочарован, но след подробно изследване и съвети от менторите ми стана ясно, че всъщност имаше грешка в самия пакет „bitsandbytes“. Писах на автора на този метод, като го уведомих за откритото от мен, приложих някои откъси от кода, за да може да възпроизведе проблема. Ден по-късно получих отговор, че това наистина е тяхна грешка и че ще бъде сред най-високите им приоритети да я оправят.

Най-добрата част от работата с групата Computation and Language по време на менторството ми беше, че ме третираха като един от тях. Чувствах се полезен в определени ситуации, когато мнението ми допринасяше за дискусията относно какви експерименти да се извършат. Най-лошото може би е, че моите кратки 6 седмици в RSI не бяха достатъчни, за да се насладя напълно на изживяването да работя в такава среда. Въпреки това и Хан Гуо, и проф. Юн Ким ще продължат да провеждат срещи с мен онлайн, така че проектът продължава.

На въпроса ми какво значение за успеха на проекта му в RSI е имала съвместната му работа с Тодор Колев (RSI’03) в България, Ради отговори:

Миналата година с Тошко работихме по „Efficient Task-Oriented Dialogue Systems with Response Selection as an Auxiliary Task“. Това беше проект, в който се опитвах да направя малки езикови модели по-добри в отговарянето на конкретни въпроси, насочени в няколко сфери. Тренираме модела освен да познава следващата думичка в някакво изречение да може да избира между два, вече написани пълни отговора, както и да изпълнява допълнителни задачи. С това допълнително подобрявахме енкодер/декодер частите на езиковите модели, без да ги правим по-големи или тежки за използване.

Там научих в подробности важността на различни хипер параметри при обучението на езикови модели, както и важността за избирането на правилните добре диференцируеми операции при избирането на следваща дума в поредица от текст, за да мога да предавам знания между различните части на модела. Това беше много полезно и по време на RSI, тъй като там работих с подобни данни и модели и вече имах опит с това да ги правя „по-ефикасни“. Проектът ми на RSI за квантуване е друг метод за постигане на подобен ефект и дори бих казал, че двете неща могат да се комбинират.

Д-р Румен Данговски (RSI’13)

Още един важен български стълб в RSI’23 бе Румен Данговски, който бе ментор на трима ученици в областта на приложения на изкуствения интелект в образованието по природни науки. Той общуваше активно и с нашите момчета и помогна с ценни съвети в представянето на разработките им.

В кабинета на Румен Данговски във Физическия департамент на MIT

Естествено използвахме случая да се видим с цялата българска диаспора в близката околност и да пренесен малко от родната атмосфера с кулинарни специалитети и музика:

Българите в кампуса на MIT сме почти навсякъде гъсто

Няколко седмици след края на програмата Румен защити дисертацията си на тема: Representation learning through the lense of science.

Финалът

Малко от кухнята на избора на „top 5” писмени разработки ‒ 100 реферата (направени по образец на професионална научна статия) се оценяват от членовете на преподавателския състав на RSI заедно с алумни от RSI. Всяка финална разработка се прочита от двама специалисти, които дават оценките си, като използват многокритериална карта. След това за финално обсъждане се класират проектите, получили две препоръки да попаднат във финалната петица (обикновено, не по-малко от 10-ина). И тогава започва истинската драма ‒ изборът е плод на многочасово обсъждане по отношение на съдържателност, иновативност, оригинален принос, оформление, технически език и стил и не на последно място – достъпност до по-широка научна аудитория. Всички оценители правим допълнителни прочити на филтрираните разработки и изслушваме мнението на най-тесните специалисти в съответната област. Обикновено се стараем да има представителни проекти от различни области.

Както стана ясно, петте устни презентации се избират на финален симпозиум от независимо жури. На този симпозиум се представят 10 представителни проекта (избрани от членовете на преподавателския състав) като достойни за „бис“ презентации пред всички участници в RSI и поканени гости. За да избере 5 от тях, журито изслушва авторите ― 10 мин. представяне и поне 5 мин. въпроси, изясняващи дълбочината на проекта и оригиналните приноси на авторите.

Преди финалния симпозиум знаех вече, че Ради е избран в петицата за най-добри писмени разработки, но това се пази в тайна до последната вечер, на тържественото закриване. Репетирахме усилено за устната презентация с всички участници, но с Ради трябваше да поработим до последния момент върху гладкостта и достъпността на изказа му. Както се разбра, имало е защо.

Ради квантува не само езиковия модел LLaMA-2, но и образа на истинска лама

Ради направи остроумно встъпление – за да направи по-нагледен ефекта от прилагането на подобрения от него метод, той показа резултата от квантуването на образа на лама.

С професионално самочувствие и вдъхновение от целия изследователски процес

Сред разпалени дебати и изключително силна конкуренция, той бе удостоен с честта да изнесе и „бис“ презентация. Дори стигането до тук вече бе изключително постижение. Но най-интересното предстоеше – как ще се справи с въпросите на журито, което тази година бе в състав:

Lauren Alfonse, Principal Scientist, Arbor Biotechnologies
Mickey Atwal, PhD, Head of Molecular Profiling & Data Science, Regeneron
Klee Dienes, RSI ’88, President, Hadron Industries, Inc.
David Levonian, PhD, RSI ’08, Quantum Research Scientist, Amazon Web Services
Anna Sher, MD, PhD, Director Quantitative Systems, Pharmacologist, GSK

Отговорите на въпросите, зададени от David Levonian, показаха сериозните познания на Ради в областта на проекта му и подчертаха свободата, която бе дадена от менторите му относно избора на експерименти. А когато Anna Sher го помоли да интерпретира един от изводите, той усмихнато отговори: „Към мен ли се обръщате или към модела ми, който генерира всички изводи въз основа на останалата част от разработката ми.“

Възторжени аплодисменти последваха не само след презентацията на Ради, но и след останалите 9 “бис“ презентации. Оставаше да видим какво мисли журито. Това щяхме да разберем няколко часа по-късно

Директорът обявява резултатите, а представител на Regeneron връчва награди

Първият поканен да получи наградата си за призовата петица по писмени разработки бе Ради. Изненадата му беше искрена (явно добре си бях скрила радостта предната вечер…) След като връчи наградите за „top 5“ писмени разработки, д-р Кантровиц започна да кани избраните в „top 5” за устни презентации. Когато до микрофона застанаха още 4 души, всички изтръпнахме в очакване, но се чу: Това са призьорите на RSI‘23 – Радостин Чолаков е единственият отличен и в двете категории!

А аз да си добавя – и единствен в областта информатика! Браво на Ради и на всички, които му помогнаха да стигне до тук (родители, роднини, колеги, учители, ментори, съученици, спонсори)! Малкото родопско село Барутин се появи на сайта на Center of Excellence in Education:

Част 1 Част 2