Pomiar skuteczności

Skąd będziesz wiedzieć, czy wdrożenie ML było warte wysiłku? Kiedy należy zacząć świętować: od razu po wdrożeniu modelu i wygenerowaniu przez niego pierwszego wyniku prognozy czy dopiero wtedy, gdy ilościowe dane biznesowe zaczną się zmieniać w odpowiednim kierunku?

Zanim rozpoczniesz projekt, musisz określić wyznaczniki sukcesu i uzgodnić wyniki. Musisz zdefiniować i śledzić te 2 typy danych:

Dane biznesowe

Najważniejsze są dane biznesowe. To dlatego używasz ML: chcesz poprawić wyniki biznesowe.

Zacznij od mierzalnych danych o produkcie lub firmie. Dane powinny być jak najbardziej szczegółowe i ukierunkowane. Oto przykłady konkretnych, mierzalnych danych biznesowych:

  • zmniejszyć miesięczne koszty energii elektrycznej w centrum danych o 30%.
  • Zwiększ przychody z rekomendacji produktów o 12%.
  • Zwiększ współczynnik klikalności o 9%.
  • Zwiększ o 20% poziom zadowolenia klientów na podstawie ankiet, w których wyrazili zgodę na udział.
  • Zwiększ czas spędzony na stronie o 4%.

Śledzenie danych biznesowych

Jeśli nie śledzisz danych biznesowych, które chcesz poprawić, zacznij od wdrożenia infrastruktury, która Ci to umożliwi. Ustalenie celu zwiększenia współczynnika klikalności o 15% nie ma sensu, jeśli obecnie nie mierzysz tego współczynnika.

Co ważniejsze, upewnij się, że mierzysz odpowiednie dane w odniesieniu do swojego problemu. Na przykład nie poświęcaj czasu na pisanie kodu do śledzenia współczynników klikalności, jeśli ważniejszymi danymi mogą być przychody z rekomendacji.

W trakcie realizacji projektu przekonasz się, czy docelowy wskaźnik sukcesu jest realistyczny. W niektórych przypadkach możesz uznać, że projekt nie jest opłacalny ze względu na określone dane świadczące o sukcesie.

Wskaźniki dotyczące modelu

Kiedy należy wdrożyć model w środowisku produkcyjnym? Kiedy AUC osiągnie określoną wartość? Gdy model osiągnie określony wynik F1. Odpowiedź na to pytanie zależy od rodzaju problemu, który chcesz rozwiązać, oraz od jakości prognozy, która Twoim zdaniem jest potrzebna do poprawy danych biznesowych.

Określając, które dane będą służyć do oceny modelu, weź pod uwagę te kwestie:

  • Określ jeden wskaźnik do optymalizacji. Na przykład modele klasyfikacji można oceniać na podstawie różnych danych (AUC, AUC-PR itp.). Wybór najlepszego modelu może być trudny, gdy różne dane wskazują na różne modele. Dlatego ustal jeden rodzaj danych, na podstawie którego będziesz oceniać modele.

  • Określ cele akceptacji, które chcesz osiągnąć. Cele akceptacji różnią się od wskaźników oceny modelu. Określają one cele, które model musi osiągnąć, aby można go było uznać za odpowiedni do zamierzonego zastosowania. Na przykład celem akceptacji może być „nieprawidłowe dane wyjściowe stanowią mniej niż 0,1%” lub „precyzja w przypadku 5 najpopularniejszych kategorii jest większa niż 97%”.

Załóżmy na przykład, że binarny model klasyfikacji wykrywa nieuczciwe transakcje. Jej wskaźnikiem optymalizacji może być czułość, a celem akceptacji – precyzja. Innymi słowy, priorytetem będzie dla nas odtwarzanie (prawidłowe wykrywanie oszustw w większości przypadków), a precyzja powinna utrzymywać się na określonym poziomie lub powyżej niego (wykrywanie rzeczywistych transakcji oszukańczych).

Związek między danymi modelu a danymi biznesowymi

Zasadniczo starasz się opracować model, którego jakość prognozowania jest przyczynowo powiązana z parametrem biznesowym. Dobre wyniki modelu nie muszą oznaczać poprawy wyników biznesowych. Twój zespół może opracować model z imponującymi wskaźnikami, ale jego prognozy mogą nie poprawić wskaźnika biznesowego.

Gdy będziesz zadowolony(-a) z jakości prognozowania modelu, spróbuj określić, jak dane modelu wpływają na dane biznesowe. Zazwyczaj zespoły wdrażają model u 1% użytkowników, a następnie monitorują wskaźnik biznesowy.

Załóżmy na przykład, że Twój zespół opracowuje model, który ma zwiększyć przychody poprzez przewidywanie rezygnacji klientów. Teoretycznie, jeśli możesz przewidzieć, czy klient prawdopodobnie opuści platformę, możesz zachęcić go do pozostania.

Twój zespół tworzy model o jakości prognozowania na poziomie 95% i testuje go na małej grupie użytkowników. Przychody jednak nie wzrosną. liczba rezygnacji klientów wzrasta. Oto kilka możliwych wyjaśnień:

  • Prognozy nie pojawiają się wystarczająco wcześnie, aby można było na ich podstawie podejmować działania. Model może przewidywać rezygnację klientów tylko w ciągu 7 dni, co nie wystarcza, aby zaoferować im zachęty do pozostania na platformie.

  • Niepełne funkcje. Być może do rezygnacji klientów przyczyniają się inne czynniki, których nie było w zbiorze danych do trenowania.

  • Próg jest zbyt niski. Aby model był przydatny, jakość prognoz może musieć wynosić co najmniej 97%.

Ten prosty przykład ilustruje 2 kwestie:

  • Ważne jest, aby przeprowadzić wczesne testy z udziałem użytkowników, aby potwierdzić (i zrozumieć) związek między danymi modelu a danymi biznesowymi.
  • Dobre wyniki modelu nie gwarantują poprawy wyników biznesowych.

Generatywna AI

Ocena danych wyjściowych generatywnej AI wiąże się z wyjątkowymi wyzwaniami. W wielu przypadkach, np. w przypadku otwartych lub kreatywnych wyników, jest to trudniejsze niż ocena tradycyjnych wyników ML.

Modele LLM można mierzyć i oceniać na podstawie różnych danych. Określenie, które dane oceniające model są odpowiednie, zależy od konkretnego przypadku użycia.

Pamiętaj

Nie myl sukcesu modelu z sukcesem biznesowym. Innymi słowy, model z doskonałymi wskaźnikami nie gwarantuje sukcesu biznesowego.

Wielu doświadczonych inżynierów potrafi tworzyć modele z imponującymi danymi. Wytrenowanie wystarczająco dobrego modelu zwykle nie stanowi problemu. Chodzi o to, że model nie poprawia wskaźnika biznesowego. Projekt ML może być skazany na niepowodzenie z powodu rozbieżności między danymi biznesowymi a danymi modelu.

Sprawdź swoją wiedzę

Masz jasny problem biznesowy i dobrze zdefiniowane rozwiązanie, które polega na użyciu modelu LLM jako agenta obsługi klienta. Jak ocenić, czy rozwiązanie jest skuteczne?
Liczba rozwiązanych zgłoszeń do zespołu pomocy wymagających interwencji człowieka zmniejsza się z 72% do 50%.
Dobra odpowiedź. Jest to mierzalny wskaźnik biznesowy, który możesz śledzić.
Wskaźniki oceny LLM są stale wysokie.
Dobre dane modelu nie gwarantują poprawy danych biznesowych.
Opinie z pierwszych testów użytkowników są bardzo pozytywne.
Opinie pierwszych użytkowników mają zwykle charakter jakościowy, a nie ilościowy. Musisz określić mierzalne dane biznesowe, które będą służyć do oceny skuteczności.