ORES/cs

Varování Varování: Infrastruktura ORES je ukončena týmem Machine Learning, další informace najdete na stránce wikitech:ORES. Projekt modernizace bude využívat LiftWing.

ORES (/ɔɹz/)[1] (Objective Revision Evaluation Service) je webová služba a rozhraní API, které poskytuje strojové učení jako službu pro projekty Wikimedie spravované týmem Machine Learning. Systém je navržen tak, aby pomohl automatizovat důležité úkoly na wiki – například detekci a odebrání vandalismu. Dva hlavní typy informací, které ORES poskytuje, jsou v oblasti "kvality editací" a "kvality článku".

ORES je služba typu back-end a neposkytuje přímo způsob, jak využít vyhodnocení. Pokud byste chtěli používat vyhodnocení ORES, podívejte se na náš seznam nástrojů, které používají výsledky ORES. Pokud ORES vaši wiki ještě nepodporuje, přečtěte si naše pokyny pro vyžádání podpory.

Hledáte odpovědi na své otázky o ORES? Podívejte se na nejčastější dotazy na ORES.

Kvalita editací

Tok kvality úprav ORES. Popisný diagram úprav plynoucích z "Internetu" na Wikipedii zobrazuje "neznámou" kvalitu úprav před ORES a označení "dobré", "potřebuje kontrolu", "škodlivé", které je možné po zpřístupnění ORES.

Jednou z nejkritičtějších obav ohledně otevřených projektů Wikimedie je kontrola potenciálně škodlivých příspěvků ("úprav"). Je také potřeba identifikovat přispěvatele v dobré víře (kteří mohou neúmyslně způsobit škodu) a nabídnout jim podporu. Tyto modely mají usnadnit práci s filtrováním prostřednictvím kanálu Special:RecentChanges. Nabízíme dvě úrovně podpory pro modely predikcí kvality úprav: základní a pokročilou.

Základní podpora

Za předpokladu, že většina škodlivých úprav bude změněna a úpravy, které nejsou škodlivé, nebudou vráceny, můžeme sestavit pomocí historie úprav (a vrácených úprav) z wiki. Tento model se snadno nastavuje, ale trpí tím problémem, že mnoho úprav je vráceno z jiných důvodů, než je poškození a vandalismus. Abychom tomu pomohli, vytváříme model založený na špatných slovech.

  • reverted – předpovídá, zda bude úprava nakonec vrácena

Pokročilá podpora

Spíše než předpokládat, můžeme požádat editory, aby školili ORES, které úpravy jsou ve skutečnosti škodlivé (damaging) a které úpravy vypadají, jako by byly uloženy v dobré víře (goodfaith). To vyžaduje další práci ze strany dobrovolníků v komunitě, ale poskytuje to přesnější a jemnější předpověď s ohledem na kvalitu úpravy. Mnoho nástrojů bude fungovat pouze tehdy, když je pro cílovou wiki k dispozici pokročilá podpora.

  • damaging – předpovídá, zda úprava způsobí poškození
  • goodfaith – předpovídá, zda byla úprava uložena v dobré víře

Kvalita článku

Anglická hodnotící tabulka Wikipedie. Snímek obrazovky anglické hodnotící tabulky Wikipedie (k června 2024)

Kvalita článků na Wikipedii je hlavním zájmem wikipedistů. Nové stránky musí být zkontrolovány a upraveny, aby bylo zajištěno, že články se spamem, vandalismem a útocích nezůstanou na wiki. U článků, které přežijí počáteční péči, někteří wikipedisté ​​pravidelně hodnotí kvalitu článků, ale to je velmi náročné na práci a hodnocení jsou často zastaralá.

Hodnocení nového článku

Čím rychleji se odstraní vážně problematické typy konceptů článků, tím lépe. Spravovat nové stránky může být hodně práce. Stejně jako problém protivandalismu při úpravách mohou strojové předpovědi pomoci kurátorům zaměřit se nejprve na nejproblematičtější nové stránky. Na základě komentářů, které zanechají administrátoři, když odstraní stránky (viz tabulka logging), můžeme vytrénovat model, který předvídá, které stránky bude potřeba rychle smazat. Viz en:WP:CSD pro seznam důvodů rychlého smazání anglické Wikipedie. Pro anglický model jsme použili G3 "vandalismus", G10 "útok" a G11 "spam".

  • draftquality (kvalita návrhu) – předpovídá, zda bude nutné článek rychle smazat (spam, vandalismus, útok nebo OK)

Hodnocení stávajícího článku

U článků, které přežijí počáteční péči, některé velké Wikipedie pravidelně hodnotí kvalitu článků pomocí stupnice, která zhruba odpovídá hodnotící stupnici English Wikipedia 1.0 (articlequality). Mít tato hodnocení je velmi užitečné, protože nám pomáhá měřit náš pokrok a identifikovat promarněné příležitosti (např. oblíbené články nízké kvality). Udržovat tato hodnocení aktuální je však náročné, takže pokrytí je nekonzistentní. Zde se hodí model strojového učení na articlequality. Trénováním modelu, který replikuje hodnocení kvality článků, které provádějí lidé, můžeme automaticky hodnotit každý článek a každou revizi pomocí počítače. Tento model byl použit k tomu, aby pomohl WikiProjects třídit nové hodnocení a prozkoumal dynamiku editace, která vede ke zlepšení kvality článků.

Model articlequality zakládá své předpovědi na strukturálních charakteristikách článku. Např. Kolik je sekcí? Je tam infobox? Kolik referencí? A používají odkazy šablonu w:Template:cite xxx? Model articlequality nehodnotí kvalitu psaní nebo pokud je problém s tónem (např. potlačený úhel pohledu). Zdá se však, že mnoho strukturálních charakteristik článků silně koreluje s dobrým písmem a tónem, takže modely v praxi fungují velmi dobře.

  • articlequality – předpovídá třídu hodnocení článku nebo konceptu (podobné Wikipedii 1.0).

Směrování tématu

Téma Crosswalk. Je prezentována vizualizace procesu označování napříč wikinami. Anglické Wikipedie WikiProjects označují články podle aktuálního zájmu. WikiProjekty jsou uspořádány do taxonomie popisků témat. Štítky témat jsou aplikovány na články na jiných wikinách prostřednictvím odkazů na stránky Wikidata.

Model tématu článku ORES aplikuje intuitivní taxonomii shora dolů na jakýkoli článek na Wikipedii – dokonce i na nové koncepty článků. Toto směrování témat je užitečné pro spravování nových článků, vytváření pracovních seznamů, vytváření nových WikiProjektů a analýzu mezer v pokrytí.

Tématické modely ORES jsou trénovány pomocí vkládání slov skutečného obsahu. Pro každý jazyk se naučí a nativně aplikuje vložení specifické pro daný jazyk. Protože tato modelovací strategie závisí na tématu článku, předpovědi tématu se mohou mezi jazyky lišit v závislosti na tématech obsažených v textu článku.

Hodnocení nového článku

Směrování nového článku. Diagram mapuje tok nových článků na Wikipedii s modely 'draftquality' a 'articletopic' ORES používané pro směrování.

Největším problémem při recenzování nových článků je najít někoho, kdo je obeznámen s tématem, aby posoudil pozoruhodnost, relevanci a přesnost. Náš model drafttopic je navržen tak, aby nově vytvořené články směroval k zainteresovaným recenzentům na základě jejich zjevné aktuální povahy. Model je trénován a testován proti první revizi článků, a je tedy vhodný pro použití u návrhů nových článků.

  • drafttopic – předpovídá téma konceptu nového článku

Mapování zájmu o téma

Příklad označování článků (Ann Bishop). Ann Bishop je označena WikiProjecty East Anglia, Women scientists (v)ědkyně, Women's history (historie žen) a Biography (biografie). Je prezentováno téma taxonomický překlad a predikce. Upozorňujeme, že předpovědi obsahují relevantnější informace o tématu než odkazy na taxonomii.

Tématická příbuznost článků je důležitým pojmem pro organizaci práce ve Wikipedii. Tématické pracovní skupiny se staly běžnou strategií pro řízení produkce obsahu a hlídkování ve Wikipedii. Hierarchie na vysoké úrovni však z mnoha důvodů není k dispozici nebo není možné se dotazovat. Výsledkem je, že každý, kdo se chce organizovat podle tématu nebo sestavit pracovní seznam, musí vykonat značnou manuální práci, aby identifikoval relevantní články. S naším modelem articletopic lze tyto dotazy provádět automaticky.

Tabulka podpory

Tabulka podpory ORES uvádí stav podpory ORES podle wiki a dostupného modelu. Pokud nevidíte svou wiki v seznamu nebo podporu pro model, který byste chtěli používat, můžete požádat o podporu.

Využití API

ORES nabízí Restful službu API pro dynamické získávání informací o hodnocení revizí. Více informací o tom, jak používat API, viz https://ores.wikimedia.org.

Pokud se dotazujete služby na velký počet revizí, doporučuje se dávkovat maximálně 50 revizí v rámci daného požadavku, jak je popsáno níže. Je přijatelné použít až 4 paralelní požadavky. Nepřekračujte prosím tyto limity, jinak se ORES mohou stát nestabilními. Pro ještě větší počet dotazů můžete ORES spustit lokálně

Příklad dotazu: http://ores.wikimedia.org/v3/scores/enwiki/?models=draftquality|wp10&revids=34854345|485104318

{
  "enwiki": {
    "models": {
      "draftquality": {
        "version": "0.0.1"
      },
      "wp10": {
        "version": "0.5.0"
      }
    },
    "scores": {
      "34854345": {
        "draftquality": {
          "score": {
            "prediction": "OK",
            "probability": {
              "OK": 0.7013632376824356,
              "attack": 0.0033607229172158775,
              "spam": 0.2176404529599271,
              "vandalism": 0.07763558644042126
            }
          }
        },
        "wp10": {
          "score": {
            "prediction": "FA",
            "probability": {
              "B": 0.22222314275400137,
              "C": 0.028102719464462304,
              "FA": 0.7214649122864883,
              "GA": 0.008833476344463836,
              "Start": 0.017699431000825352,
              "Stub": 0.0016763181497590444
            }
          }
        }
      },
      "485104318": {
        "draftquality": {
          "score": {
            "prediction": "OK",
            "probability": {
              "OK": 0.9870402772858909,
              "attack": 0.0006854267347843173,
              "spam": 0.010405615745053554,
              "vandalism": 0.0018686802342713132
            }
          }
        },
        "wp10": {
          "score": {
            "prediction": "Stub",
            "probability": {
              "B": 0.02035853144725939,
              "C": 0.021257471714087376,
              "FA": 0.0018133076388221472,
              "GA": 0.003447287158958823,
              "Start": 0.1470443252839051,
              "Stub": 0.8060790767569672
            }
          }
        }
      }
    }
  }
}
 

Výsledek

Příklad dotazu: https://ores.wikimedia.org/v3/scores/wikidatawiki/421063984/damaging

{
  "wikidatawiki": {
    "models": {
      "damaging": {
        "version": "0.3.0"
      }
    },
    "scores": {
      "421063984": {
        "damaging": {
          "score": {
            "prediction": false,
            "probability": {
              "false": 0.9947809563336424,
              "true": 0.005219043666357669
            }
          }
        }
      }
    }
  }
}
 

Výsledek

Využití EventStreamu

Hodnocení ORES jsou také poskytována jako EventStream na https://stream.wikimedia.org/v2/stream/revision-score

Místní použití

Chcete-li spustit ORES lokálně, můžete nainstalovat balíček ORES Python takto:

pip install ores # needs to be python3, incompatible with python2

Pak byste to měli být schopni spustit:

echo -e '{"rev_id": 456789}\n{"rev_id": 3242342}' | ores score_revisions https://ores.wikimedia.org (váš řetězec user-agent jde sem) enwiki damaging

Měli byste vidět výstup

017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Reading input from <stdin>
2017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Writing output to from <stdout>
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9889349126544834, "true": 0.011065087345516589}}}}, "rev_id": 456789}
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9830812038318183, "true": 0.016918796168181708}}}}, "rev_id": 3242342}
 

Výsledek

Poznámky pod čarou

  1. Původně Objective Revision Evaluation Service, tento dlouhý název je nyní zastaralý.
Category:ORES/cs
Category:ORES/cs