DGrid AI wprowadza nowy framework Proof of Quality zaprojektowany do oceny wyników AI i poprawy dystrybucji nagród w zdecentralizowanych sieciach. ZdecentralizowanyDGrid AI wprowadza nowy framework Proof of Quality zaprojektowany do oceny wyników AI i poprawy dystrybucji nagród w zdecentralizowanych sieciach. Zdecentralizowany

Najnowsze badania DGrid AI dotyczą podstawowej wady w zdecentralizowanym scoringu AI

2026/06/18 18:43
5 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

DGrid AI wprowadza nowy framework Proof of Quality, zaprojektowany do oceny wyników AI i poprawy dystrybucji nagród w zdecentralizowanych sieciach.

Podsumowanie
  • Nowe badania PoQ DGrid AI wprowadzają ocenianie bez referencji, aby nagradzać węzły AI bez potrzeby posiadania poprawnych odpowiedzi.
  • DGrid wyszkolił wyspecjalizowane sędziowskie modele AI do oceny jakości wyników, usprawniając zdecentralizowane systemy nagród AI na dużą skalę.
  • Nowe modele Proof of Quality DGrid AI pomagają zdecentralizowanym sieciom AI dokładnie oceniać odpowiedzi bez danych wzorcowych.

Zdecentralizowane sieci AI mają problem z płatnościami, z którym badacze po cichu zmagają się od lat, a niedawny artykuł DGrid AI stawia tę kwestię wprost na stole. Systemy oceniania jakości napędzające nagrody dla węzłów w dużej mierze opierały się na posiadaniu pod ręką poprawnej odpowiedzi do porównania. W środowisku produkcyjnym taka odpowiedź rzadko istnieje.

Artykuł, czwarty w trwającej serii badań DGrid dotyczącej Proof of Quality (PoQ), proponuje wytrenowaną alternatywę i publikuje stojące za nią liczby. PoQ używa małych modeli oceniających do punktowania jakości każdego wyniku, a te punkty napędzają nagrody. Tanio i skalowalne.

DGrid budował to krok po kroku: wersję uwzględniającą koszty, która wplata opóźnienie w matematykę wypłat, warstwę odporności na ataki adversarialne, która utrzymuje się, gdy oceniający zaczynają kłamać lub leniuchować, oraz framework dzielący „jakość" na części, które można zbadać. Solidna inżynieria. A każda warstwa wciąż uderzała w tę samą ścianę.

Jak rozwinął się problem oceniania

Podstawowa struktura zdecentralizowanej sieci inferencji tworzy wyzwanie pomiarowe. Niezależne węzły uruchamiają modele językowe i odpowiadają na zapytania użytkowników. Te odpowiedzi muszą być oceniane, ponieważ punkty determinują wynagrodzenie. Kryptograficzna weryfikacja każdego obliczenia byłaby technicznie szczelna, ale prohibitywnie droga na dużą skalę, więc praktyczną ścieżką była automatyczna ocena jakości przy użyciu mniejszych modeli.

Wcześniejsze prace DGrid rozwijały to podejście stopniowo, dodając wypłaty skorygowane o opóźnienie, zabezpieczenia przed manipulacyjnymi oceniającymi i bardziej szczegółowy podział tego, co „jakość" naprawdę oznacza w kontekście oceniania. Czego nie mogło w pełni rozwiązać, to sam sygnał ewaluacyjny.

Najsilniejszym sygnałem, jakim dysponował zespół, było podobieństwo semantyczne: porównaj wynik modelu ze znaną poprawną odpowiedzią i zmierz odległość między nimi w przestrzeni embeddingów. Działa to w środowiskach benchmarkowych, gdzie istnieją odpowiedzi referencyjne. Nie działa w działającej sieci, gdzie użytkownicy zadają pytania otwarte i żadna prawda wzorcowa nie czeka w bazie danych.

Gotowe alternatywy wypadły gorzej. NLI cross-encoder, klasa modeli zaprojektowana do oceny logicznego wynikania między zdaniami, zwrócił korelację Pearsona równą −0,363, gdy był używany do oceny jakości odpowiedzi bez odpowiedzi referencyjnej. Ujemna korelacja oznacza, że model był bardziej skłonny faworyzować słabe odpowiedzi nad dobrymi. To nie jest użyteczne narzędzie ewaluacyjne.

Co proponuje artykuł

Zamiast adaptować istniejące modele, badacze wytrenowali trzech sędziów specjalnie do oceniania jakości bez referencji. Każdy przyjmuje pytanie i odpowiedź jako dane wejściowe i zwraca wynik od 0 do 10, bez podanej poprawnej odpowiedzi.

Trzy modele różnią się przede wszystkim rozmiarem i szybkością:

  • TextCNN (~10M parametrów) działa w około 1 milisekundę na wywołanie, co czyni go odpowiednim do filtrowania pierwszego przejścia przy wysokiej przepustowości.
  • MiniLM (22M parametrów) plasuje się pośrodku, przy około 13 milisekundach.
  • DeBERTa (184M parametrów) zajmuje około 15 milisekund i jest zoptymalizowany pod kątem dokładności.

Trening przebiegał w dwuetapowym procesie. Modele były najpierw wstępnie trenowane na UltraFeedback, publicznym zbiorze danych ocenianych przez GPT-4 odpowiedzi, przed dostrojeniem na własnym rozkładzie zadań sieci. Intencją było danie sędziom szerokiego bazowego rozumienia jakości przed zawężeniem ich skupienia do konkretnego kontekstu oceniania.

Główny wynik

Na wydzielonym zbiorze testowym 300 przykładów sędzia DeBERTa osiągnął korelację Pearsona równą 0,747 względem proxy prawdy wzorcowej — bez dostępu do jakiejkolwiek odpowiedzi referencyjnej. Ewaluatory oparte na referencjach z poprzedniego frameworku, które miały dostęp do poprawnych odpowiedzi, osiągnęły maksimum 0,647.

Różnica ma proste wyjaśnienie. Starsze ewaluatory były metrykami podobieństwa mierzącymi odległość cosinusową do referencyjnego embeddingu. Nowi sędziowie byli optymalizowani kompleksowo pod kątem samego zadania oceniania. Różnica w wydajności odzwierciedla to rozróżnienie bardziej niż jakikolwiek przełom architektoniczny.

Jedno zastrzeżenie, które autorzy uwzględniają: prawda wzorcowa użyta tutaj jest sama w sobie proxy — nakładanie się słów na poziomie tokenów, a nie osąd człowieka. Sędziowie dobrze korelują z tą metryką, ale czy nakładanie się słów rzetelnie odzwierciedla to, co człowiek uznałby za jakościową odpowiedź, to osobne, nierozwiązane pytanie.

Dwóm sędziom towarzyszą dwie funkcje zorientowane na wdrożenie. Kaskadowy pipeline kieruje zapytania najpierw przez lekki model i eskaluje do cięższych modeli tylko wtedy, gdy wyniki są niejednoznaczne, redukując koszty ewaluacji nawet o 72,7% przy najbardziej agresywnym ustawieniu progu, choć korelacja spada do około 0,51 w tej konfiguracji. Mechanizm kalibracji online, działający bez ręcznego strojenia, konsekwentnie identyfikuje jakość semantyczną jako dominujący sygnał i odpowiednio dostosowuje wagi, przypisując jej 4,7-krotność jej wagi początkowej z czasem.

Gdzie system wciąż napotyka trudności

Sędziowie działają nierównomiernie w różnych typach zadań. W przypadku odpowiadania na pytania korelacja osiąga 0,830. W przypadku streszczania spada do 0,199. Artykuł przypisuje to nie porażce samych sędziów, lecz metryce ewaluacyjnej używanej podczas treningu: surowe nakładanie się słów jest słabą miarą jakości streszczania, więc modele trenowane na jej podstawie uczą się śledzić słaby sygnał. Autorzy opisują to jako główny otwarty problem, a nie znane ograniczenie zarządzane po cichu.

To ujęcie jest spójne z tym, jak artykuł prezentuje swoje wyniki ogólnie — metodycznie, z przypadkami niepowodzeń przedstawionymi równie wyraźnie jak usprawnienia. Cztery artykuły w tym wątku badawczym — praca czyta się mniej jak ogłoszenie produktu, a bardziej jak zespół stopniowo zamykający luki w czymś, co faktycznie zamierza wdrożyć.

Ujawnienie: Ta treść jest dostarczana przez stronę trzecią. Ani crypto.news, ani autor tego artykułu nie popierają żadnego produktu wymienionego na tej stronie. Użytkownicy powinni przeprowadzić własne badania przed podjęciem jakichkolwiek działań związanych z firmą.

Okazja rynkowa
Logo Gensyn
Cena Gensyn(AI)
$0.02529
$0.02529$0.02529
+2.55%
USD
Gensyn (AI) Wykres Ceny na Żywo

World Cup Combo: Aim for 200x

World Cup Combo: Aim for 200xWorld Cup Combo: Aim for 200x

Combine up to 20 World Cup matches in one order

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.

Score Your Share of 50K USDT

Score Your Share of 50K USDTScore Your Share of 50K USDT

Complete DEX+ tasks to unlock the Champion Wheel