Sanat:EVE/todo

Sanatista

Tälle sivulle saa lisätä avoimia tehtäviä tai toiveita sellaisista. (Etymologiawikin käyttäjäkunta on toistaiseksi suppea ja täysin ulkopuolisiin tavoitteisiin liittyviä toiveita tuskin ehditään toteuttamaan pitkiin aikoihin.)

Aineistot

  • Wikiin tarvittaneen ajan myötä lista päälähteistä / aineistoista (SSA, UEW, ym.) & niiden wikiin siirtotilanne (osittain / valmis).
    • Pienemmille lähteille kuten yksittäisiä sanoja käsitteleville artikkeleille kannattanee luoda mallineet tms. ja merkitä niihin, onko niiden sisältö siirretty wikiin kokonaisuudessaan.
  • Aineistoja, joiden sisältö tulee ajan myötä siirtymään wikin tietokantaan, mutta joihin toistaiseksi on kannattavaa viitata:
    • Kotuksen saamelaiskielten etymologinen tietokanta Álgu [1]
      • Sisältää osa-aineistona Yhteissaamelaisen sanaston pääkohdiltaan.
    • Kotuksen suomen sanojen etymologinen viitetietokanta Evita [2]
    • Suomen sanojen alkuperä, tulossa Kotuksen verkkojulkaisuna 2020-luvulla
  • Aineistoja, joita ei tällä hetkellä olla sellaisemaan siirtämässä wikiin:
    • UEW:n verkkoversio Uralonet [3]

Organisointi

Etymologiawikiin toimitetaan ainakin seuraavantyyppisiä sisältöjä:

A. Varsinaiset etymologiset tulokset:

  • Etymologiseen tietokantaan hyväksytty raakadata. Tämä sijoitetaan nimiavaruuteen Etymologiadata:. Toistaiseksi luotuja aineistoja löytyy luokista Luokka:Kantasuomen rekonstruktiot ja Luokka:Tutkimushistoriasivut.
  • Etymologisia artikkeleita:
  • Etymologisia listoja, esim. eri tutkijoiden wikissä esittämät etymologiat. Ks. Etymologiadata:Aineistoja.
    • Suuri osa tästä tulee olemaan ajan myötä siirrettävissä tietokantaan, jos datalle määritellään esim. tietty julkaisukanava.

B. Etymologinen keskustelu:

  • Alkuun päässee yhdellä keskusteluhuoneella, toistaiseksi Keskustelu Sanatista:Etymologiawiki. Keskustelu voidaan jakaa hienompiin osiin, jos ja kun tarvetta tulee.
  • Yksittäisten tietueiden keskustelusivulle kannattaa luoda linkit käytävään keskusteluun.

C. Wikin tukisisällöt:

  • Ohjeistus wikin kanssa työskenteleville tutkijoille.
  • Johdantosivut ims-wikin lukijoille.

Käytettävyys

  • Käsitteistö:
    • Tarvitseeko Sanat-wikissä käytettäviä peruskäsitteitä kuten nimiavaruus varten luoda apusanasto käyttäjiä varten? esim. osoitteeseen Ohje:Termistö.
    • Sama kysymys etymologiassa käytettyjen peruskäsitteiden kohdalla kuten kantasuomi.
    • Projektin julkistamisen aikoihin tullaan selvästi tarvitsemaan jonkinlainen termistö lukijoita varten.
  • Muokkaaminen:
    • Wikiin tarvitaan ilman muuta myös ainakin ohjeet semanttisen wikin kanssa työskentelyyn.
      • Ei kiireellinen: ensin pitää selvittää datan semanttinen muotoilu ylipäänsä.

Käyttöoikeudet

  • Halutaanko etymologiawikin taustakeskusteluille, esim. tälle sivulle, suljettu nimiavaruus? Näitä varten yleensä käytetty nimiavaruus Sanat: on tällä hetkellä aika vähällä käytöllä, ja ehkä muillekin käyttäjille sopii sen suojaaminen?
  • Millä lisenssillä ensinnäkin aineisto ja toisekseen toimitettu sisältö julkaistaan?
    • Keskustelussa sähköpostitse ehdotettu (Pystynen): sanastotietokanta CC-0, tutkimushistoriatietokanta CC-BY, sanakirjaa ei tarpeen lisensoida.
    • Moni Wiktionaryn malline jne. tulisi olemaan täälläkin hyvin käytännöllinen, mutta aiheuttaako tämä tekijänoikeudellisia ongelmia tai asettaako se lisensointivaatimuksia?

Teknistä

Yleisiä koko wikiä koskevia aiheita:

  • Etymologiasivujen tyypit
    • Useimmissa tapauksissa yksittäisen sivun kannattaa käsitellä jonkin tietyn kielen yksittäistä sanaa.
    • Etymologinen sanue voidaan useimmiten mallintaa kantakielen sanana. Tämä voidaan tehdä melko löysästi; esim. varhaiset rinnakkaiset lainasanat voidaan myös käsitellä tällä tavoin.
  • Nimeäminen: mihin nimiavaruuksiin etymologiawiki sijoitetaan? Jos etymologiawikiä halutaan myöhemmin laajentaa muihinkin ural. kieliin (tulevaisuudessa muihinkin kielikuntiin? joiden aineistoa joka tapauksessa tarvitaan mm. lainasanoja varten), jokin yksinkertainen etuliite kuten Etym: lienee paras.
    • Tällä hetkellä wikin olemassaolevat kieliaineistot sijaitsevat kukin omassa nimiavaruudessaan (esim. Lud:, Sosva:), joten jokainen niistä voidaan muotoilla omalla tavallaan.
    • Lienee toistaiseksi parasta pitää eri aineistot erillään, eli ainakaan emme esim. yritä tunkea lyydin etymologista dataa Lud-aineiston sekaan.
    • Alaosoitteet ovat mahdollisia, esim. suomen sanojen etymologinen data voi sijaita osoitteessa Etyl:fin:, josta se sitten erikseen sisällytetään valmiisiin sana-artikkeleihin. Pitää selvittää, mitä tämä merkitsee hakutoimintojen kannalta.
  • Mikä tulee olemaan julkaistavien etymologia-artikkeleiden lemma eli sivun osoite?
    • Oleellisin kysymys alkuvaiheessa! Verkkolähteen sijaintia ei voi noin vain siirrellä ees taas, koska tämä rikkoo kaikki (ulkoiset) linkit sinne.
      • Sivujen uudelleenohjaukset ovat wikissa mahdollisia, mutta tämä ei tule olemaan yleispätevä ratkaisu: esim. jos rekonstruktiot A ja B joskus tulevaisuudessa muutetaan asuihin B ja C, niin emme voi sekä uudelleenohjata A:ta B:hen että B:tä C:hen.
    • Vaihtoehto 1: jokin abstrakti tunniste. Vepsän verkkosanasto ja Álgu käyttävät puhtaasti numero-otsikoita, ja sivun varsinainen sisältö voi olla mitä tahansa. Nämä ovat täydellisen muuttumattomia, mutta luultavasti hankalasti linkitettävissä wikin sisällä.
    • Vaihtoehto 2a: jonkin nykykielen asu, eli FUV-tyyppinen ratkaisu jossa hakumuoto (osoite) vaihtelee sanan levikin mukaan. Ei ehkä haittaa paljoakaan, sillä wikiympäristössä voi joka tapauksessa hakea tai listata kaikkien eri kielimuotojen mukaan.
    • Vaihtoehto 2b: "avainkielistetty" asu (Petrin sanasto kuulemma toimii näin). Toiminee itämerensuomen sisällä, ei tule toimimaan monien muiden ural. kieliryhmien tapauksissa, eikä missään nimessä kantauralilaisille etymologioille.
    • Vaihtoehto 3a: rekonstruoitu kantamuoto. Hyvin luultavasti ei tule olemaan kaikissa tapauksissa muuttumaton, koska rekonstruktioillahan on tapana elää.
    • Vaihtoehto 3b: jonkin tietyn lähteen mukainen rekonstruktio. Toimii yksittäisten lähteiden kuten UEW tai YSS tapauksessa; mutta ei sovellu uusien etymologioiden lisäämiseen. Kantasuomesta mitään tälläistä standardilähdettä ei lisäksi edes ole vielä olemassa. (Petrin sanasto teoriassa soveltuisi sellaiseksi, jos se ensin jossain muuallakin julkaistaan.)
  • Mitä ural. kieliä wikissä on määritelty? Lienee joka tapauksessa tarpeen määritellä niitä lisää, joka tosin vaatii standardikoodeista erkanemista.
    • Ks. Sanat:Kielikoodit. Näyttää siltä, että mitään kielikoodeista riippuvaisia yleismallineita ei toistaiseksi ole.
    • Jos haluamme etukoodit kaikille oleellisesti erilaisille ural. kielimuodoille, näitä tarvitaan lisää ainakin Siperian kielten eri päämurteille (ehkä myös esim. Jazvan komille, salatsinliiville). Wiktionary käyttää ISO-koodien loppuessa omia laajennettuja koodeaan muotoa XXX-XXX, ja voisimme seurata esimerkkiä: esim. itämansi mns-kon, länsimansi mns-wes, etelämansi mns-tav?
    • Myös kantakielille tarvitaan omat koodinsa — olettaen, että käsittelemme niitä attestoitujen kielien tapaan.
    • Tulevaisuuden kannalta, eli tietokannan yhteensopivuuden varmistamiseen tulevien muiden etymologisten tietokantojen kanssa, uusia koodeja ei kannata määritellä liian liberaalisti. Esim. useimmat etelämansille varteenotettavat kolmikirjaimiset koodit kuten mse, mss, tav, tvd ovatkin ISO 639-3:ssa jo muussa käytössä (museyn, länsimaselan, tatuyon ja tsuvadin kielet).
  • Onko interwikilinkkejä määritelty? Pitäisikö olla? Wikipediaan/Wiktionaryyn tuskin tullaan viittaamaan usein, mutta mahdollisuus tehdä näin olisi silti kätevä. Onko olemassa muita Mediawikiä käyttäviä sanastolähteitä, joihin kannattaisi viitata?
    • NB. wikiohjelmisto pyytää spammitarkastusta uusien ulkoisten linkkien kohdalla, joten interwikilinkeillä päästäisiin tästä osittain eroon.
  • Olisi hyvä olla malline, esim. Malline:link, jolla voidaan linkittää jonkin kielen johonkin sanaan tai sanueeseen muualla wikissä. Eri aineistoilla on toistaiseksi hyvinkin eri rakenne, joten tämä pitää aika lailla määritellä erikseen jokaista täältä löytyvää aineistoa kohden.
    • Wikin ulkopuolisten aineistojen tapauksessa homma menee tietysti vieläkin hankalammaksi.

Etymologian mallinnuksesta:

  • Miten homonyymejä käsitellään; esim. kuusi 'puu' ja kuusi '6'?
    • Yksi sivu, kaksi etymologiaa? Ei hyvä: tälläisille yhteissivuille on mahdotonta määritellä järkevästi ominaisuuksia.
    • Tyypillinen sanakirjaratkaisu: yksiselitteistetyt artikkelit kuten kuusi¹ ja kuusi²? Käytettävissä, johtaa pieniin teknisiin komplikaatioihin (esim. tarvitaan erillinen "todellinen asu suomen kielessä" -ominaisuus, jos emme halua näiden jossain vaiheessa yllättäen vaikkapa päätyvän luokkiin kuten "suomen kielen ¹:een päättyvät sanat").
      • Lähes kaikissa tapauksissa pitää kuitenkin määritellä ominaisuuksia kuten "asu viron kielessä", joten tämä ei olisi iso askel.
    • Yllä mainittu abstrakti tunniste -ratkaisu?
  • Miten murteita käsitellään?
    • Tuleeko sanoille määritellä jonkinlaiset levikkitiedot? Huom. levikki ei ole pysyvä fakta, vaan muuttuu ajan mukana (esim. kaasu, kärhi ovat olleet alun perin murresanoja ja siirtyneet laajempaan käyttöön kirjakielen kautta). Ehkä murrelevikin voi useimmiten esittää vapaana tekstinä.
  • Mitä ja minkä tyyppisiä ominaisuuksia etymologioilla pitäisi olla?
    • Lajittelu tyypeittäin:
      • Tyyppi Text
        • Yleistyyppi datalle kuten kieliasu tai lähteen nimi.
      • Tyyppi Reference
        • Jokainen ominaisuus voidaan lähteistää! Olisiko mahdollista hoidella etymologiawikin lähteistäminen ylipäänsä tällä tavalla? Tuleeko olemaan tarpeeksi luettavissa?
      • Tyyppi Page
        • Suoraviivainen: sisäisille wikilinkeille.
      • Tyyppi URL
        • Suoraviivainen. Voitaisiin käyttää ulkoisiin lähteisiin linkittämiseen, mutta kannattaako?
      • Tyyppi Boolean
        • Soveltuu ominaisuuksille kuten "sanalle S on esitetty vastinetta kielestä K ylipäänsä jossain lähteessä" tai "lähde L esittää sanalle S vastinetta kielestä K".
        • Lienee liian karkea ominaisuuksille tyyppiä "Kuuluu etymologiseen joukkoon sejase", koska eri lähteissä voidaan olla eri mieltä siitä, onko jokin tietty joukko sanoja yksi vai useampi etymologinen kokonaisuus.
      • Tyyppi Number soveltuu esim. levikkitietojen probabilistiseen merkintään tai sivunumeroille lähteessä (tosin jälkimmäinen lienee yleensä kai liian pikkutarkka tieto ollakseen ominaisuus).

Muotoilua: Suurin osa datan sisällytyksestä muualle onnistunee parhaiten Inline Queries- toiminnolla. Esim.

  • Listat vastineista. Onnistuuko ei-aakkosjärjestäminen?
  • Lähteenmukaiset tiedot, esim. "kaikki UEW:n lemmat".
  • Jonkin sanan jonkin lähteen mukainen alkuperä (esim. "on lainaa" tai esitetty kantakielinen asu)

Huom. tämä saattaa johtaa datan "elämiseen".

Laajennuksia

Wikilaajennusten asentamiseen tarvitaan Sanat-wikin palvelimen ylläpidon (= Kielipankin) apua.

  • Cite: Wikipediankin käyttämä automaattinen alaviitelaajennus.
  • Semantic Glossary: mahdollistaa lyhenteiden globaalin määrittelemisen wikiin.
  • Semantic Internal Objects: mahdollistaa moniosaisten ominaisuuksien määrittelyn, voi olla hyvä esim. julkaisujen sarjanumeroiden ja sarjanimien linkittämiseen bibliografiaosassa tai refleksijoukkojen yksinkertaistamiseen (esim. kun kantasana *X edustuu jossain kielessä ainoastaan johdoksina Xå, Xä, Xö).
  • SkinPerNamespace: tämän avulla etymologiawikin julkiselle osalle voidaan saada oma, muusta sivustosta riippumaton ulkoasunsa.