/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F0030395b85c4071768bd47f639cf1ea8.jpg)
Інструменти штучного інтелекту для кодування не можуть пришвидшити роботу розробників - звіт
Робочі процеси розробників програмного забезпечення за останні роки трансформувалися завдяки появі інструментів для кодування на основі штучного інтелекту, таких як Cursor та GitHub Copilot, які обіцяють підвищити продуктивність завдяки автоматичному написанню рядків коду, виправленню помилок та тестуванню змін. Ці інструменти працюють на основі моделей штучного інтелекту від OpenAI, Google DeepMind, Anthropic та xAI, які за останні роки швидко підвищили свою продуктивність у низці тестів програмної інженерії.
Однак нове дослідження, опубліковане в четвер некомерційною дослідницькою групою зі штучного інтелекту METR, ставить під сумнів те, наскільки сучасні інструменти кодування на основі штучного інтелекту підвищують продуктивність досвідчених розробників.
Для цього дослідження METR провела рандомізоване контрольоване дослідження, залучивши 16 досвідчених розробників з відкритим кодом та попросивши їх виконати 246 реальних завдань у великих репозиторіях коду, до яких вони регулярно вносять свій внесок. Дослідники випадковим чином призначили приблизно половину цих завдань як «дозволені ШІ», надаючи розробникам дозвіл використовувати найсучасніші інструменти кодування ШІ, такі як Cursor Pro, тоді як інша половина завдань забороняла використання інструментів ШІ.
Перед виконанням поставлених завдань розробники прогнозували, що використання інструментів штучного інтелекту для кодування скоротить час їхнього виконання на 24%. Але це не так.
«Дивно, але ми виявили, що використання штучного інтелекту фактично збільшує час виконання на 19% — розробники працюють повільніше, використовуючи інструменти штучного інтелекту», — сказали дослідники.
Примітно, що лише 56% розробників у дослідженні мали досвід використання Cursor, основного інструменту штучного інтелекту, запропонованого в дослідженні. Хоча майже всі розробники (94%) мали досвід використання деяких веб-матеріалів LLM у своїх робочих процесах кодування, це дослідження було першим випадком, коли деякі з них використовували саме Cursor. Дослідники зазначають, що розробники пройшли навчання з використання Cursor під час підготовки до дослідження.
З усім тим, висновки METR викликають питання щодо нібито універсального підвищення продуктивності, обіцяного інструментами ШІ-кодування у 2025 році. Виходячи з дослідження, розробникам не слід вважати, що інструменти ШІ-кодування, зокрема те, що стало відомим як «vibe-кодери», одразу пришвидшать їхні робочі процеси.
Дослідники METR вказують на кілька потенційних причин, чому ШІ уповільнював розробників, а не пришвидшував їхню роботу: розробники витрачають набагато більше часу на підказки ШІ та очікування його відповіді під час використання Vibe-кодерів, ніж на власне кодування. ШІ також має тенденцію до труднощів у великих, складних базах коду, які використовувалися в цьому тесті.
Автори дослідження обережно не роблять жодних переконливих висновків з цих результатів, прямо зазначаючи, що вони не вважають, що системи штучного інтелекту наразі не можуть пришвидшити багатьох або більшість розробників програмного забезпечення. Інші масштабні дослідження показали, що інструменти кодування на основі штучного інтелекту справді пришвидшують робочі процеси розробників програмного забезпечення.
Автори також зазначають, що прогрес у сфері штучного інтелекту був суттєвим за останні роки, і що вони не очікують таких самих результатів навіть через три місяці. METR також виявило, що інструменти кодування на основі штучного інтелекту значно покращили свою здатність виконувати складні завдання на довгий термін за останні роки.
Однак, дослідження пропонує ще одну причину для скептичного ставлення до обіцяних переваг інструментів ШІ-кодування. Інші дослідження показали, що сучасні інструменти ШІ-кодування можуть допускати помилки , а в деяких випадках і вразливості безпеки .