C-LARA

An AI collaborates with humans to build a language learning app.


Using GPT-4o’s image understanding abilities in C-LARA

Many people on the web are talking about GPT-4o’s image understanding abilities, and it was very easy to integrate them into C-LARA. If you create a project using Simple C-LARA and choose the second option,

you now invoke GPT-4o to perform the image-to-text step.

Here’s a first example. I downloaded this children’s drawing from Google

and asked C-LARA to write an imaginative story in French based on it. I think it did pretty well! Here are the first two paragraphs:

Dans une petite ville paisible, il y avait une maison en briques rouges qui se distinguait des autres. Cette maison, pourtant ordinaire de l’extérieur, cachait en son sein des habitants très particuliers.

Au premier étage, à gauche, vivait Monsieur Sourire. Monsieur Sourire était toujours de bonne humeur et avait le don de faire rire tous ceux qu’il rencontrait. Il portait toujours un nœud papillon vert qui, disait-il, était son porte-bonheur. Chaque matin, il saluait les passants avec un “Bonjour!” enthousiaste et partageait des blagues qui faisaient écho aux murs de la maison.

The full story in multimodal form is posted here.

The process just couldn’t be simpler, and if you select GPT-4o in the Edit System Configuration screen then processing is also considerably quicker than it used to be. Please post a link if you try it out and get an interesting result!



Leave a comment