Sprout Engineering

Sentimentanalyse 101: Hvordan Sprouts datavitenskapsteam bygde en hybrid modell

Som alle som noen gang har vært i et forhold vil fortelle deg, er menneskelige følelser et komplisert konsept. Dette gjelder spesielt for markedsførere som prøver å forstå de kvalitative fordelene - verdien som går utover grunnleggende funksjonalitet - av deres produkt eller tjeneste. Det er ikke vanskelig å forstå hva produktet ditt gjør, men vet du hvordan det får forbrukerne til å føle seg?

Det ville du gjort hvis du brukte sosial lyttingsanalyse for å destillere målgruppens ufiltrerte sosiale medier, til strategisk innsikt. Tar alt av sosiale data tilgjengelig på hele Twitter og å kategorisere det for positive, negative eller nøytrale følelser er en viktig oppgave, og ingen to metoder er skapt like. Derfor bygget HASHTAGS et hybrid sentimentanalysesystem som kombinerer de to primære tilnærmingene, Rule Lists og Machine Learning.

Regellister

En av de enkleste måtene å takle sentimentanalyse på er å bruke menneskeskapte regler eller ordbøker. Med denne tilnærmingen er systemet avhengig av en liste med ord eller uttrykk som direkte tilordnes til en bestemt følelse. For eksempel kan enhver Tweet som inneholder ordet 'high five' merkes som positiv, mens en Tweet som inneholder 'horrible' vil være negativ. Systemer som dette er svært tilpassbare, og kan utvides til å omfatte tusenvis av ord og setningsregler.

På baksiden sliter regelsystemer med tweets som samsvarer med motstridende regler, for eksempel 'Filmen var ikke så forferdelig som jeg forventet.' Her kan 'fryktelig' merkes negativt, mens 'forventet' ville være positivt. De motstridende reglene markerer Tweet som nøytralt, mens noen menneskelige lesere tolker det som litt positivt og andre, litt negativt.

En ytterligere begrensning av regelbaserte systemer er avhengigheten av menneskelig innsats og forståelse. Språk utvikler seg raskt (spesielt på Twitter), og et regelbasert system krever at noen gir en jevn strøm av nye termer og uttrykk. Oppdatering av et sentimentssystem er ikke alltid en topprioritet, og et system kan raskt bli utdatert. Selv med årvåken overvåking kan det være vanskelig å identifisere endrede språktrender, og avgjøre når nye regler må legges til.

Maskinlæring

Mer avanserte sentimentanalysesystemer bruker Maskinlæring (ML) teknikker (noen ganger også kalt kunstig intelligens eller Naturlig språkbehandling ). Machine Learning er en familie av teknikker som bruker statistikk og sannsynlighet for å identifisere komplekse mønstre som kan brukes til å merke gjenstander.

I motsetning til regelbaserte systemer, er ML-systemer fleksible nok til å oppdage likheter som ikke umiddelbart er synlige for et menneske. Ved å se på mange, mange eksempler, lærer systemet mønstre som vanligvis er forbundet med positive, negative eller nøytrale følelser.

åndelig betydning av 555

For eksempel kan et ML-sentimentanalysesystem finne at tweets som inneholder ordet 'regn' og slutter med ett utropstegn, er negative, mens tweets med 'regn' og to utropstegn er positive. Et menneske legger kanskje ikke merke til dette mønsteret eller forstår hvorfor det oppstår, men et ML-system kan bruke det til å komme med veldig nøyaktige spådommer.

Mens maskinlæringssystemer kan gi gode resultater, har de noen mangler. Når det er mye variasjon i språket, kan det være vanskelig for et ML-system å sile gjennom støyen for å plukke ut mønstre. Når sterke mønstre eksisterer, kan de overskygge mindre vanlige mønstre, og føre til at ML-systemet ignorerer subtile signaler.

Sprout’s Approach

For å bygge vårt sentimentanalysesystem designet vi et hybridsystem som kombinerer det beste fra både regelbaserte og maskinlæringsmetoder. Vi analyserte titusenvis av tweets for å identifisere steder der ML-modeller sliter, og introduserte regelbaserte strategier for å overvinne disse manglene.

Ved å supplere statistiske modeller med menneskelig forståelse, har vi bygget et robust system som fungerer godt i mange forskjellige innstillinger.

Alt om nøyaktighet

På overflaten virker sentimentanalyse ganske grei - bare avgjør om en Tweet er positiv, negativ eller nøytral. Menneskelig språk og følelser er imidlertid kompliserte, og å oppdage følelser i en Tweet gjenspeiler denne kompleksiteten.

Vurder disse tweets. Er de positive, negative eller nøytrale?

https://twitter.com/alex/status/917406154321420289

betydningen av 144

Dude ba nettopp om 6 skudd med espresso på Starbucks ... SIX. Freaking SIX !!

- Simone Eli (@SimoneEli_TV) 31. oktober 2017

Du kan føle deg trygg på svarene dine, men sjansen er god for at ikke alle er enige med deg. Forskning har vist at folk bare er enige i følelsen av tweets 60-80% av tiden.

Du kan være skeptisk. Det var vi også.

For å teste det ut, merket to medlemmer av vårt Data Science-team nøyaktig det samme settet med 1000 tweets som positive, negative eller nøytrale. Vi skjønte at “vi jobber med tweets hver dag; vi vil sannsynligvis ha en perfekt avtale mellom oss to. '

Vi beregnet resultatene og dobbelt- og tredoblet sjekket dem. Forskningen var perfekt - vi var bare enige om 73% av tweets.

Utfordringer i sentimentanalyse

Forskning (sammen med vårt lille eksperiment) viser at sentimentanalyse ikke er grei. Hvorfor er det så vanskelig? La oss gå gjennom noen av de største utfordringene.

Kontekst

Tweets er et lite øyeblikksbilde i tide. Mens noen står alene, er tweets ofte en del av en pågående samtale eller referanseinformasjon som bare gir mening hvis du kjenner forfatteren. Uten disse ledetrådene kan det være vanskelig å tolke forfatterens følelser.

Jeg gjør dette med skjeer til kaffe også.
nummer nummer 848

- Renée Barrow (@RmBarrow) 14. oktober 2017

Sarkasme

Sarkasmeoppdagelse er en annen smak av kontekstutfordringen. Uten tilleggsinformasjon forveksler sentimentanalysesystemer ofte den bokstavelige betydningen av ord med hvordan de er ment. Sarkasme er et aktivt område for akademisk forskning, så vi kan se systemer i nær fremtid som forstår snark.

Sammenligninger

Sentiment blir også vanskelig når tweets gjør sammenligninger. Hvis jeg gjennomfører markedsundersøkelser på grønnsaker og noen tweets, er 'Gulrøtter bedre enn squash,' er denne Tweet positive eller negative? Det avhenger av ditt perspektiv. På samme måte kan noen tvitre: 'Bedrift A er bedre enn selskap B.' Hvis jeg jobber for selskap A, er denne tweeten positiv, men hvis jeg er sammen med selskap B, er den negativ.

Emojis

Emojis er et helt eget språk . Mens emoji liker å uttrykke en ganske åpenbar følelse, er andre mindre universelle. Mens vi bygget vårt sentimentanalysesystem, så vi nøye på hvordan folk bruker emojier, og fant at selv vanlige emojier kan forårsake forvirring. er nesten like brukt til å bety 'så glad jeg gråter' eller 'så trist jeg gråter.' Hvis mennesker ikke kan bli enige om betydningen av en emoji, kan heller ikke et sentimentanalysesystem.

Definere nøytral

Selv 'nøytral' følelse er ikke alltid grei. Tenk på en nyhetsoverskrift om en tragisk hendelse. Selv om vi alle er enige om at hendelsen er forferdelig, er de fleste nyhetsoverskrifter ment som faktiske, informative uttalelser. Sentimentanalysesystemer er designet for å identifisere følelsene til innholdets forfatter, ikke leserens respons. Selv om det kan virke rart å se forferdelige nyheter merket 'nøytrale', gjenspeiler det forfatterens intensjon om å formidle faktainformasjon.

Sentimentanalysesystemer varierer også i hvordan nøytral er definert. Noen anser nøytral som en kategori for alle Tweet der systemet ikke kan bestemme mellom positivt eller negativt. I disse systemene er 'nøytral' synonymt med 'Jeg er ikke sikker.' I virkeligheten er det imidlertid mange tweets som ikke uttrykker følelser, for eksempel eksemplet nedenfor.

8) mening

En 'Venti' har vanligvis to skudd med espresso, men denne kunden ba om 14 https://t.co/jzOi93RRd9

- TAXI (@designtaxi) 30. oktober 2017

Systemet vårt klassifiserer eksplisitt ikke-emosjonelle tweets som nøytrale, i stedet for å bruke nøytral som standardmerke for tvetydige tweets.

Evaluering av sentimentanalyse

Med så mange utfordringer i sentimentanalyse lønner det seg å gjøre leksene dine før du investerer i et nytt verktøy. Leverandører prøver å bidra til å kutte gjennom kompleksiteten ved å fokusere på statistikk om produktets nøyaktighet. Nøyaktighet er ikke alltid en sammenligning av epler til epler. Hvis du planlegger å bruke nøyaktighet som målepinne, er det noen få ting du bør spørre om.

Er rapportert nøyaktighet større enn 80%?
Siden mennesker bare er enige med hverandre 60-80% av tiden, er det ingen måte å opprette et testdatasett som alle vil være enige om inneholder de 'riktige' sentimentetikettene. Når det gjelder sentiment, er 'riktig' subjektivt. Med andre ord, det er ikke en gullstandard å bruke i testnøyaktighet.

633 nummernummer som betyr

Den øvre grensen for et sentimentanalyses nøyaktighet vil alltid være enighet på menneskelig nivå: ca 80%. Hvis en leverandør hevder mer enn 80% nøyaktighet, er det lurt å være skeptisk. Nåværende forskning antyder at selv 80% nøyaktighet er usannsynlig; Toppeksperter innen feltet oppnår vanligvis nøyaktigheter i midten til øvre 60-tall.

Hvor mange sentimentkategorier blir det spådd?
Noen leverandører vurderer nøyaktighet bare på tweets som er identifisert av menneskelige evaluatorer som definitivt positive eller negative, unntatt alle nøytrale tweets. Det er mye lettere for systemets nøyaktighet å virke veldig høy når du arbeider med sterkt emosjonelle tweets og bare to mulige resultater (positive eller negative).

I naturen er de fleste tweets imidlertid nøytrale eller tvetydige. Når et system vurderes mot bare positivt og negativt, er det umulig å vite hvor godt systemet takler nøytrale tweets - det meste av det du faktisk ser.

Hvilke typer tweets er inkludert i testsettet?
Et sentimentanalysesystem bør bygges og testes på tweets som er representative for forholdene i den virkelige verden. Noen sentimentanalysesystemer er opprettet ved hjelp av domenespesifikke tweets som er filtrert og renset for å gjøre det så enkelt som mulig for et system å forstå.

For eksempel kan en leverandør ha funnet et eksisterende datasett som bare inkluderer sterkt emosjonelle tweets om flyindustrien, med unntak av spam eller utenfor emnet tweets. Dette vil føre til at nøyaktigheten blir høy, men bare når den brukes på veldig like tweets. Hvis du jobber i et annet domene, eller får tweets utenfor emnet eller spam, vil du se mye lavere nøyaktighet.

Hvor stor var testdatasettet?
Sentimentanalysesystemer bør evalueres på flere tusen tweets for å måle systemets ytelse i mange forskjellige scenarier. Du får ikke et sant mål på systemets nøyaktighet når et system bare testes på noen få hundre tweets.

Her på Sprout bygde vi modellen vår på en samling på 50 000 tweets hentet fra et tilfeldig utvalg fra Twitter. Fordi tweets ikke er domenespesifikke, fungerer vårt sentimentanalysesystem godt på et bredt spekter av domener.

I tillegg gir vi separate spådommer for positive, negative og nøytrale kategorier; vi bruker ikke bare nøytrale når andre spådommer mislykkes. Nøyaktigheten vår ble testet på 10.000 tweets, hvorav ingen ble brukt til å bygge systemet.

Se Sprouts sentimentanalyse live med lyttere

All forskning i verden er ingen erstatning for å evaluere et system fra første hånd. Gi vårt nye sentimentanalysesystem en prøvekjøring i vårt nyeste verktøy for sosial lytting, Lyttere , og se hvordan det fungerer for deg. Til slutt er det beste sosiale lytteverktøyet det som tilfredsstiller dine behov og hjelper deg med å få større verdi av det sosiale. La oss hjelpe deg i gang i dag.

Del Med Vennene Dine:

Finn Ut Antall Engel