Набір даних для навчання ШІ Diverse Tools від OORT потрапив на першу сторінку Kaggle у кількох категоріях
Набір зображень для тренування штучного інтелекту, розроблений децентралізованим провайдером рішень у галузі ШІ OORT, продемонстрував значний успіх на платформі Kaggle від Google.
Лістинг набору даних Diverse Tools на Kaggle був опублікований на початку квітня, і відтоді він піднявся до першої сторінки одразу в кількох категоріях. Kaggle — це онлайн-платформа Google для змагань, навчання й співпраці фахівців із науки про дані та машинного навчання.
Рамкумар Субраманіам, ключовий учасник крипто-ШІ проєкту OpenLedger, повідомив CryptoAcademy: “Рейтингове місце на головній сторінці Kaggle — це потужний соціальний сигнал, що показує залученість саме тих спільнот дата-сайентистів, інженерів машинного навчання та практиків, для яких ці дані є релевантними.”
Макс Лі, засновник та CEO OORT, додав у коментарі CryptoAcademy, що компанія “спостерігала обнадійливі показники взаємодії, які підтверджують ранній попит та актуальність” зібраних через децентралізовану модель тренувальних даних. Він зазначив:
“Органічний інтерес спільноти, активне використання та внесок демонструють, як децентралізовані, керовані спільнотою канали даних, такі як OORT, можуть досягати швидкого розповсюдження й залучення без потреби в централізованих посередниках.”
Лі також повідомив, що в найближчі місяці OORT планує випустити ще кілька наборів даних: з голосовими командами для автомобілів, для голосових команд у розумному домі та набір для детекції deepfake-відео з метою вдосконалення верифікації медіа на основі ШІ.
Перша сторінка в кількох категоріях
Набір даних було незалежно перевірено редакцією CryptoAcademy: на початку травня він досяг першої сторінки в категоріях General AI, Retail & Shopping, Manufacturing та Engineering на Kaggle. Станом на час публікації статті він втратив ці позиції після, ймовірно, нерелевантного оновлення інших наборів даних 6 та 14 травня.
Водночас Субраманіам зауважив CryptoAcademy, що “це не остаточний індикатор реального використання чи корпоративного рівня якості.” За його словами, ключовим у наборі OORT є “не лише рейтинг, а й походження даних та система стимулів.” Він пояснив:
“На відміну від централізованих постачальників з непрозорими ланцюгами обробки, прозора система з токен-стимулами забезпечує простежуваність, кураторство спільноти та потенціал для безперервного вдосконалення за умови наявності належного управління.”
Лекс Соколін, партнер венчурного фонду Generative Ventures, зазначив, що хоч такі результати навряд чи важко відтворити, “вони демонструють, що криптопроєкти можуть використовувати децентралізовані стимули для організації економічно цінної активності.”
Високоякісні дані для тренування ШІ: дефіцитний ресурс
За даними дослідницької компанії Epoch AI, людські тексти для тренування моделей ШІ можуть вичерпатися вже в 2028 році. Тиск на джерела даних настільки високий, що інвестори вже посередничають у угодах, передаючи права на захищені авторським правом матеріали компаніям зі штучного інтелекту.
Про дефіцит даних для тренування ШІ та можливі обмеження зростання галузі говорять уже кілька років. Хоча синтетичні (генеровані ШІ) дані успішно застосовуються дедалі ширше, дані, створені людьми, досі вважаються кращими та якіснішими для побудови потужніших моделей.
Що ж до зображень для тренування, то ситуація ускладнюється через навмисні спроби художників саботувати навчання моделей. Наприклад, Nightshade дозволяє “отруїти” власні зображення, суттєво погіршивши продуктивність алгоритмів.
Субраманіам зауважив: “Ми вступаємо в еру, коли високоякісні набірні зображення дедалі більше ставатимуть дефіцитом.” Він також визнав, що ця проблема загострюється через популярність технік “отруєння” даних:
“З поширенням методів, як-от маскування зображень і супротивне водяне маркування для отруєння тренування ШІ, відкриті набори даних стикаються з подвійним викликом: нестачею кількості та довіри.”
У такій ситуації, за словами Субраманіама, верифіковані та зібрані спільнотою за стимулів набори даних “цінніші, ніж будь-коли раніше.” Він вважає, що подібні проєкти “можуть стати не просто альтернативою, а справжніми опорами для відповідності ШІ та забезпечення походження в новій економіці даних.”