ORES/cs
ORES ![]() |
---|
Získání ORESu |
Použití ORESu |
Zpětná vazba a jak se připojit |
Tým |
Úprava vylepšení kontroly (Edit Review Improvements ERI) |
---|
Funkce |
Dokumentace |
Technické |
ORES (/ɔɹz/)[1] (Objective Revision Evaluation Service) je webová služba a rozhraní API, které poskytuje strojové učení jako službu pro projekty Wikimedie spravované týmem Machine Learning. Systém je navržen tak, aby pomohl automatizovat důležité úkoly na wiki – například detekci a odebrání vandalismu. Dva hlavní typy informací, které ORES poskytuje, jsou v oblasti "kvality editací" a "kvality článku".
ORES je služba typu back-end a neposkytuje přímo způsob, jak využít vyhodnocení. Pokud byste chtěli používat vyhodnocení ORES, podívejte se na náš seznam nástrojů, které používají výsledky ORES. Pokud ORES vaši wiki ještě nepodporuje, přečtěte si naše pokyny pro vyžádání podpory.
Hledáte odpovědi na své otázky o ORES? Podívejte se na nejčastější dotazy na ORES.
Kvalita editací

Jednou z nejkritičtějších obav ohledně otevřených projektů Wikimedie je kontrola potenciálně škodlivých příspěvků ("úprav"). Je také potřeba identifikovat přispěvatele v dobré víře (kteří mohou neúmyslně způsobit škodu) a nabídnout jim podporu. Tyto modely mají usnadnit práci s filtrováním prostřednictvím kanálu Special:RecentChanges. Nabízíme dvě úrovně podpory pro modely predikcí kvality úprav: základní a pokročilou.
Základní podpora
Za předpokladu, že většina škodlivých úprav bude změněna a úpravy, které nejsou škodlivé, nebudou vráceny
, můžeme sestavit pomocí historie úprav (a vrácených úprav) z wiki.
Tento model se snadno nastavuje, ale trpí tím problémem, že mnoho úprav je vráceno z jiných důvodů, než je poškození a vandalismus. Abychom tomu pomohli, vytváříme model založený na špatných slovech.
reverted
– předpovídá, zda bude úprava nakonec vrácena
Pokročilá podpora
Spíše než předpokládat, můžeme požádat editory, aby školili ORES, které úpravy jsou ve skutečnosti škodlivé
(damaging) a které úpravy vypadají, jako by byly uloženy v dobré víře
(goodfaith).
To vyžaduje další práci ze strany dobrovolníků v komunitě, ale poskytuje to přesnější a jemnější předpověď s ohledem na kvalitu úpravy.
Mnoho nástrojů bude fungovat pouze tehdy, když je pro cílovou wiki k dispozici pokročilá podpora.
damaging
– předpovídá, zda úprava způsobí poškozenígoodfaith
– předpovídá, zda byla úprava uložena v dobré víře
Kvalita článku

Kvalita článků na Wikipedii je hlavním zájmem wikipedistů. Nové stránky musí být zkontrolovány a upraveny, aby bylo zajištěno, že články se spamem, vandalismem a útocích nezůstanou na wiki. U článků, které přežijí počáteční péči, někteří wikipedisté pravidelně hodnotí kvalitu článků, ale to je velmi náročné na práci a hodnocení jsou často zastaralá.
Hodnocení nového článku
Čím rychleji se odstraní vážně problematické typy konceptů článků, tím lépe. Spravovat nové stránky může být hodně práce. Stejně jako problém protivandalismu při úpravách mohou strojové předpovědi pomoci kurátorům zaměřit se nejprve na nejproblematičtější nové stránky. Na základě komentářů, které zanechají administrátoři, když odstraní stránky (viz tabulka logging ), můžeme vytrénovat model, který předvídá, které stránky bude potřeba rychle smazat. Viz en:WP:CSD pro seznam důvodů rychlého smazání anglické Wikipedie. Pro anglický model jsme použili G3 "vandalismus", G10 "útok" a G11 "spam".
draftquality
(kvalita návrhu) – předpovídá, zda bude nutné článek rychle smazat (spam, vandalismus, útok nebo OK)
Hodnocení stávajícího článku
U článků, které přežijí počáteční péči, některé velké Wikipedie pravidelně hodnotí kvalitu článků pomocí stupnice, která zhruba odpovídá hodnotící stupnici English Wikipedia 1.0 (articlequality
).
Mít tato hodnocení je velmi užitečné, protože nám pomáhá měřit náš pokrok a identifikovat promarněné příležitosti (např. oblíbené články nízké kvality).
Udržovat tato hodnocení aktuální je však náročné, takže pokrytí je nekonzistentní.
Zde se hodí model strojového učení na articlequality
.
Trénováním modelu, který replikuje hodnocení kvality článků, které provádějí lidé, můžeme automaticky hodnotit každý článek a každou revizi pomocí počítače.
Tento model byl použit k tomu, aby pomohl WikiProjects třídit nové hodnocení a prozkoumal dynamiku editace, která vede ke zlepšení kvality článků.
Model articlequality
zakládá své předpovědi na strukturálních charakteristikách článku.
Např. Kolik je sekcí? Je tam infobox? Kolik referencí? A používají odkazy šablonu w:Template:cite xxx?
Model articlequality
nehodnotí kvalitu psaní nebo pokud je problém s tónem (např. potlačený úhel pohledu).
Zdá se však, že mnoho strukturálních charakteristik článků silně koreluje s dobrým písmem a tónem, takže modely v praxi fungují velmi dobře.
articlequality
– předpovídá třídu hodnocení článku nebo konceptu (podobné Wikipedii 1.0).
Směrování tématu

Model tématu článku ORES aplikuje intuitivní taxonomii shora dolů na jakýkoli článek na Wikipedii – dokonce i na nové koncepty článků. Toto směrování témat je užitečné pro spravování nových článků, vytváření pracovních seznamů, vytváření nových WikiProjektů a analýzu mezer v pokrytí.
Tématické modely ORES jsou trénovány pomocí vkládání slov skutečného obsahu. Pro každý jazyk se naučí a nativně aplikuje vložení specifické pro daný jazyk. Protože tato modelovací strategie závisí na tématu článku, předpovědi tématu se mohou mezi jazyky lišit v závislosti na tématech obsažených v textu článku.
Hodnocení nového článku

Největším problémem při recenzování nových článků je najít někoho, kdo je obeznámen s tématem, aby posoudil pozoruhodnost, relevanci a přesnost.
Náš model drafttopic
je navržen tak, aby nově vytvořené články směroval k zainteresovaným recenzentům na základě jejich zjevné aktuální povahy.
Model je trénován a testován proti první revizi článků, a je tedy vhodný pro použití u návrhů nových článků.
drafttopic
– předpovídá téma konceptu nového článku
Mapování zájmu o téma

Tématická příbuznost článků je důležitým pojmem pro organizaci práce ve Wikipedii.
Tématické pracovní skupiny se staly běžnou strategií pro řízení produkce obsahu a hlídkování ve Wikipedii.
Hierarchie na vysoké úrovni však z mnoha důvodů není k dispozici nebo není možné se dotazovat.
Výsledkem je, že každý, kdo se chce organizovat podle tématu nebo sestavit pracovní seznam, musí vykonat značnou manuální práci, aby identifikoval relevantní články.
S naším modelem articletopic
lze tyto dotazy provádět automaticky.
articletopic
– předpovídá téma článku (další podrobnosti )
Tabulka podpory
Tabulka podpory ORES uvádí stav podpory ORES podle wiki a dostupného modelu. Pokud nevidíte svou wiki v seznamu nebo podporu pro model, který byste chtěli používat, můžete požádat o podporu.
Využití API
ORES nabízí Restful službu API pro dynamické získávání informací o hodnocení revizí. Více informací o tom, jak používat API, viz https://ores.wikimedia.org.
Pokud se dotazujete služby na velký počet revizí, doporučuje se dávkovat maximálně 50 revizí v rámci daného požadavku, jak je popsáno níže. Je přijatelné použít až 4 paralelní požadavky. Nepřekračujte prosím tyto limity, jinak se ORES mohou stát nestabilními. Pro ještě větší počet dotazů můžete ORES spustit lokálně
Příklad dotazu: http://ores.wikimedia.org/v3/scores/enwiki/?models=draftquality|wp10&revids=34854345|485104318
{
"enwiki": {
"models": {
"draftquality": {
"version": "0.0.1"
},
"wp10": {
"version": "0.5.0"
}
},
"scores": {
"34854345": {
"draftquality": {
"score": {
"prediction": "OK",
"probability": {
"OK": 0.7013632376824356,
"attack": 0.0033607229172158775,
"spam": 0.2176404529599271,
"vandalism": 0.07763558644042126
}
}
},
"wp10": {
"score": {
"prediction": "FA",
"probability": {
"B": 0.22222314275400137,
"C": 0.028102719464462304,
"FA": 0.7214649122864883,
"GA": 0.008833476344463836,
"Start": 0.017699431000825352,
"Stub": 0.0016763181497590444
}
}
}
},
"485104318": {
"draftquality": {
"score": {
"prediction": "OK",
"probability": {
"OK": 0.9870402772858909,
"attack": 0.0006854267347843173,
"spam": 0.010405615745053554,
"vandalism": 0.0018686802342713132
}
}
},
"wp10": {
"score": {
"prediction": "Stub",
"probability": {
"B": 0.02035853144725939,
"C": 0.021257471714087376,
"FA": 0.0018133076388221472,
"GA": 0.003447287158958823,
"Start": 0.1470443252839051,
"Stub": 0.8060790767569672
}
}
}
}
}
}
}
|
---|
Výsledek |
Příklad dotazu: https://ores.wikimedia.org/v3/scores/wikidatawiki/421063984/damaging
{
"wikidatawiki": {
"models": {
"damaging": {
"version": "0.3.0"
}
},
"scores": {
"421063984": {
"damaging": {
"score": {
"prediction": false,
"probability": {
"false": 0.9947809563336424,
"true": 0.005219043666357669
}
}
}
}
}
}
}
|
---|
Výsledek |
Využití EventStreamu
Hodnocení ORES jsou také poskytována jako EventStream na https://stream.wikimedia.org/v2/stream/revision-score
Místní použití
Chcete-li spustit ORES lokálně, můžete nainstalovat balíček ORES Python takto:
pip install ores # needs to be python3, incompatible with python2
Pak byste to měli být schopni spustit:
echo -e '{"rev_id": 456789}\n{"rev_id": 3242342}' | ores score_revisions https://ores.wikimedia.org (váš řetězec user-agent jde sem) enwiki damaging
Měli byste vidět výstup
017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Reading input from <stdin>
2017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Writing output to from <stdout>
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9889349126544834, "true": 0.011065087345516589}}}}, "rev_id": 456789}
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9830812038318183, "true": 0.016918796168181708}}}}, "rev_id": 3242342}
|
---|
Výsledek |
Poznámky pod čarou
- ↑ Původně Objective Revision Evaluation Service, tento dlouhý název je nyní zastaralý.