Länkstig

Är grodan utanför dammen eller dammen utanför grodan?

Publicerad

När vi beskriver ett föremåls placering i en bild, använder vi oss av beskrivningar som dess fysiska placering och förhållandet till andra saker i bilden. Men hur ska datorer lära sig att till exempel föredra beskrivningen ”grodan är utanför dammen” snarare än ”dammen är utanför grodan”? I sin avhandling undersöker Mehdi Ghanimifard hur artificiella neurala nätverk lär sig vilken information som är relevant för rumsliga beskrivningar.

Bild
Mehdi Mohammad Ghanimifard
Mehdi Mohammad Ghanimifard utanför Näckrosdammen vid Humanisten. Eller är det Näckrosdammen som är utanför Mehdi Mohammad Ghanimifard?
Foto: Monica Havström

– En av utmaningarna med att kommunicera med en maskin är hänvisningen till föremål och deras plats i en bild, säger Mohammad Mehdi Ghanimifard, doktorand i datalingvistik.

Avhandlingens sju olika studier bidrar till tre diskussioner när det kommer till upplärning och utformning av neurala nätverk och sökmotorer:

  • Representationen av olika slags rumsliga kunskaper i neurala nätverk.
  • Sambandet mellan rumsliga beskrivningar och neurala representationer med en ”uppmärksamhetsmodell”.
  • Systematisk generalisering vid utbildning av modellerna.

Resultaten i avhandlingen visar att det handlar om behovet av att beakta kunskaper om världen och mänskliga interaktioner i språkmodeller. Mehdi Ghanimifard hoppas att detta ska gynna utformningen av system som automatiskt genererar bildbeskrivningar och leda till en mer naturlig människa-robot-interaktion.

Avhandlingen Why the pond is not outside the frog? Grounding in contextual representations by neural language models försvarades vid en disputation den 27 maj 2020.

Länk till avhandling: http://hdl.handle.net/2077/64095

Kontakt:
Mehdi Mohammad Ghanimifard, tel: 031-786 4038, e-post: mehdi.ghanimifard@gu.se