OpenRefine

Nykyään OpenRefine on aihe, joka kiinnittää edelleen kaiken ikäisten ja kiinnostuksen kohteiden huomion. Nykymaailmassa merkityksellisyytensä ansiosta OpenRefine:stä on tullut keskustelun ja keskustelun aihe kaikilla yhteiskunnan aloilla. OpenRefine on osoittautunut yleismaailmallisesti kiinnostavaksi aiheeksi populaarikulttuurin vaikutuksesta politiikkaan ja talouteen. Tässä artikkelissa tutkimme OpenRefine:een liittyviä eri näkökohtia ja analysoimme sen merkitystä nykyisessä kontekstissa. Alkuperäistään sen vaikutuksiin jokapäiväisen elämän eri osa-alueilla OpenRefine paljastaa olevan monimutkainen ja relevantti aihe, joka ansaitsee tarkan tarkastelun.

OpenRefine
Kehityshistoria
Vakaa versio 3.9.2 ()[1]
Tiedot
Lisenssi BSD-lisenssi
Aiheesta muualla
Verkkosivusto

OpenRefine, entiseltä nimeltään Google Refine ja sitä ennen Freebase Gridworks, on itsenäinen avoimen lähdekoodin työpöytäsovellus tiedon siivoamiseen ja muuntamiseen muihin muotoihin.[2] Se toimii vastaavalla tavalla kuin taulukkolaskentasovellukset (ja voi työstää taulukkolaskennan tiedostomuotoja). Se kuitenkin käyttäytyy enemmän kuin tietokanta.

Ohjelmiston toimintaperiaate

OpenRefine käsittelee tietorivejä, joissa on soluja sarakkeissa, samaan tapaan kuin relaatiotietokantojen taulukoissa. OpenRefinessa projekti koostuu yhdestä taulukosta. Käyttäjä voi suodattaa näytettäviä rivejä käyttämällä fasetteja, jotka määrittävät suodatuskriteerit (esimerkiksi näyttää rivit, jossa tietty sarake ei ole tyhjä). Toisin kuin taulukkolaskennassa, useimmat toiminnot OpenRefinessa tehdään kaikille suodatettuna oleville riveille: tietyssä sarakkeessa olevan tiedon muokkaus, uuden sarakkeen luominen perustuen olemassa olevan sarakkeen tietoihin, jne. Kaikki datasetissä tehdyt toimet tallennetaan ohjelmaan ja ne voidaan toistaa toiselle datasetille.

Toisin kuin taulukkolaskennassa, kaavoja ei tallenneta soluihin, vaan muuntaminen kaavalla tehdään kerran ja kaava tallennetaan myöhempää käyttöä varten.[3] Muuntamislausekkeet voidaan kirjoittaa General Refine Expression Language (GREL) -kielellä,[4] Jythonilla (eli Python) ja Clojurella.[5]

Ohjelmalla on web-käyttöliittymä. Se ei kuitenkaan ole verkossa isännöity (SAAS), vaan sen voi ladata vapaasti ja asentaa paikallisesti. Kun OpenRefine käynnistetään, se käynnistää web-palvelimen ja selainkäyttöliittymän, jolla palvelinta hyödynnetään.

Ohjelmiston mahdollisia käyttötapoja

  • Sotkuisen datan siivous: jos työstää esimerkiksi tekstitiedostoa, jossa on semi-strukturoitua dataa, sitä voidaan muokata käyttämällä muunnoksia, fasetteja ja klusterointia, jotta tiedot saadaan siististi jäsennellyksi.[6][7]
  • Tietojen muuntaminen: arvojen muuntaminen muihin muotoihin, normalisointi ja denormalisointi.
  • Tietojen jäsentäminen web-sivustoilta: OpenRefinessa on ominaisuus URL:n noutamiseksi, jsoup-HTML-jäsennin ja DOM-moottori.[8]
  • Datasetin rikastaminen hakemalla lisätietoa verkkopalveluista (eli jsonin palauttaminen).[9] Sitä voidaan käyttää esimerkiksi osoitteiden geokoodaamiseen maantieteellisiksi koordinaateiksi.[10]
  • Tietojen yhdistäminen Wikidataan (perustuu vastaavaan Freebaselle kehitettyyn lisäosaan[11]). Keskeisenä tässä on rekonsiliaatio — vastaavien kohteiden löytäminen Wikidatasta datasetissä oleville tekstimuotoisille arvoille.[12]

Tuettuja tuonnin ja viennin tiedostomuotoja

Tuonti on tuettu seuraavissa muodoissa:[13]

  • TSV, CSV
  • Tekstitiedosto, jossa on mukautettuja erottimia tai sarakkeet erotellaan kiinteän leveyden perusteella
  • XML
  • RDF-tripletit (RDF/XML ja Notation3 -serialisointiformaatit)
  • JSON
  • Google Sheets, Google Fusion Tables[14]

Jos lähtötiedot ovat ei-standardissa tekstimuodossa, ne voidaan tuoda konaisina riveinä jakamatta sarakkeisiin, ja sarakkeet erotetaan myöhemmin OpenRefinen työkaluilla. Refine tukee arkistoituja ja pakattuja tiedostoja (.zip, .tar.gz, .tgz, .terva.bz2, .gz tai .bz2) ja se voi ladata lähtötiedostoja URL-osoitteesta.

Vienti on tuettu seuraavissa tiedostomuodoissa:[15]

  • TSV
  • CSV
  • Microsoft Excel
  • HTML-taulukko
  • Vienti mallinemoottorilla. On mahdollista määritellä malline tietojen tulostamiseen esimerkiksi MediaWiki-taulukoksi.

OpenRefine -projektin voi viedä .tar.gz arkistona.

Historia

OpenRefine oli alkujaan Metawebin kehittämä Freebase Gridworks ja se on ollut saatavilla avoimena lähdekoodina tammikuusta 2010 alkaen.[16] Google osti Freebasen kehittäjän Metawebin 16. heinäkuuta 2010,[17] ja nimesi Freebase Gridworksin Google Refineksi 10. marraskuuta 2010, julkistamalla samalla version 2.0.[18] Alkuperäinen ohjelmoija David Huynh ilmoitti 2. lokakuuta 2012, että Google lopettaisi pian aktiivisen tukensa Google Refinelle.[19][20][21] Siitä lähtien ohjelmistokoodi on ollut siirtymävaiheessa avoimen lähdekoodin projektiksi nimeltä OpenRefine.[22]

Lähteet

  1. Release 3.9.2, (viitattu ). Tieto on haettu Wikidatasta.
  2. openrefine.github.com openrefine.org. Viitattu 21.8.2018. (englanniksi)
  3. Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation code.google.com. Viitattu 18 April 2012.
  4. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  5. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  6. Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data youtube.com. Viitattu 18 April 2012.
  7. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  8. Stripping HTML: Refine documentation wiki page code.google.com. Viitattu 18 April 2012.
  9. FetchingURLsFromWebServices wiki page: Refine documentation code.google.com. Viitattu 18 April 2012.
  10. Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation youtube.com. Viitattu 18 April 2012.
  11. Schema Alignment: Refine documentation wiki page code.google.com. Viitattu 18 April 2012.
  12. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  13. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  14. Changelog for 2.5 code.google.com. Viitattu 18 April 2012.
  15. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  16. https://code.google.com/p/google-refine/source/detail?r=2
  17. Google Official Blog: Deeper understanding with Metaweb. Määritä julkaisu!Määritä ajankohta! Artikkelin verkkoversio. Viitattu 18 April 2012.
  18. Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers. Määritä julkaisu!Määritä ajankohta! Artikkelin verkkoversio. Viitattu 18 April 2012.
  19. the future of the Refine projects. Määritä julkaisu!Määritä ajankohta! Artikkelin verkkoversio.
  20. From Freebase Gridworks to Google Refine and now OpenRefine. Määritä julkaisu!Määritä ajankohta! Artikkelin verkkoversio.
  21. OpenRefine (Arkistoitu – Internet Archive). OpenRefine. Retrieved on 2013-08-16.
  22. google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting. Code.google.com. Retrieved on 2013-08-16.

Aiheesta muualla