Life and Tech Talk

생성형 AI를 다루는 기술 4. GPT-4o vs Gemini 멀티모달 LLM 글쓰기 능력 비교

최근 OpenAI에서 GPT-4o를 발표하면서 AI기술 발전 수준에 대해 전세계가 놀라고 있다. 영화 배우 스칼렛 요한슨의 목소리를 닮은 여성의 목소리와 다양한 어조를 흉내내며 영화속의 AI가 현실로 다가오고 있음을 체감하게 하였다.


기술적인 진보에 대한 놀라움으로 이슈가 되었고, 또 허락 받지 않은 스칼렛 요한슨의 닮은 목소리를 사용해 개인 생체정보 사용도 이슈가 되었다. OpenAI가 스칼렛 요한슨에게 그녀의 목소리를 쓰려고 제안하였으나 거절 당하고 대신 비슷한 음성을 가진 여성의 목소리로 대체 했다는 후문이다.


데모 영상 중에 GPT-4o가 그래프, 차트 등 여러 이미지와 음성 지시에 대해서도 상당히 띄어나게 응답할 수 있음을 보여 주었다. 과연 실제 사용가능 수준은 어떨까? 이번 포스팅에서는 OpenAI와 Google의 멀티모달 기술 수준이 어느 정도인지 직접 코드로 구현하고 비교해 보고자 한다.


멀티모달 Input으로 간략한 지시 프롬트트와 이미지를 사용하자. 우선 두 LLM에게 지시할 프롬프트를 블로그 포스트 용으로 비교적 간결하게 작성해 보자.


"Write a short, engaging blog post based on this picture. It should include a description of the photo and talk about my journey. please answer in Korean."


다음은 GPT-4o와 Gemini vision API를 연동하여 블로그 글을 쓰는 가장 심플한 파이썬 코드를 작성해보자.


1. GPT-4o 멀티모달 AI 연동 구현


from openai import OpenAI
import os
client = OpenAI(api_key="YOUR API KEY")

prompt="""
Write a short, engaging blog post based on this picture. It should include a description of the photo and talk about my journey. please answer in Korean.
"""

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": prompt},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://www.lensntalk.com/data/image/%EA%B7%B8%EB%A6%BC2_647.png",
          },
        },
      ],
    }
  ],
  max_tokens=2000,
)

print(response.choices[0].message.content)


  • 설치 모듈: pip install --upgrade openai


API 연동을 위한 필요한 모듈을 설치하고, max_tokens가 작으면 답변이 잘릴 수 있으니, max_tokens=2000으로 충분하게 설정하였다.

이제 미드저니로 그린 그림을 가지고 테스트 해보자.


미드저니 생성 그림 (Prompt: beach, Cuno Amiet --ar 16:9 --s 250 --v 5.2)


gpt-4o 답변


바다와 함께한 여정: 나의 이야기


여러분, 오늘은 저의 특별한 여정을 소개해드리고자 합니다. 위 사진을 보면, 맑고 투명한 바닷물과 그 속에서 신나게 뛰어노는 아이들이 보입니다. 이 사진은 바로 제가 어린 시절 즐겨 찾았던 해변을 떠올리게 합니다.


그 해변은 언제나 나에게 자유와 행복을 선물해주었습니다. 맨발로 모래사장을 걷고, 파도가 부딪히는 소리를 듣고, 반짝이는 물 위를 달리는 순간들은 저에게 그 무엇과도 바꿀 수 없는 소중한 기억입니다. 그래서인지 어른이 된 지금
도 가끔은 그곳을 찾게 됩니다.


어릴 적 저와 친구들은 끝없이 펼쳐진 수평선을 바라보며 새로운 꿈을 키웠습니다. 그때는 바다가 마치 끝없는 가능성을 상징하는 것 같았죠. 꿈은 저 먼 수평선 저편에 있는 보물처럼 느껴졌습니다. 행복했던 과거를 기반으로 저는 제
 꿈을 향해 한 걸음씩 나아갈 수 있었습니다.


바다와 함께한 나의 여정은 그렇게 시작되었습니다. 매번 바다를 찾을 때면 마치 새로운 출발점에 선 기분이 듭니다. 바다가 주는 무한한 영감 속에서 저는 늘 새로운 에너지를 얻곤 합니다.


여러분도 바다와 함께한 특별한 기억을 가지고 계신가요? 그 기억 속에서 꿈과 희망을 찾으시길 바랍니다. 저처럼 바다의 무한한 매력 속에서 다시금 힘을 얻을 수 있을 것입니다.


본인의 스타일은 아니지만 GPT4-o의 묘사력과 글솜씨는 제법이다.



2. Gemini gemini-pro-vision 연동 API 구현


import google.generativeai as genai
import os
genai.configure(api_key="YOUR API KEY")
model = genai.GenerativeModel('gemini-pro-vision')

prompt="""
Write a short, engaging blog post based on this picture. It should include a description of the photo and talk about my journey. please answer in Korean.
"""

import PIL.Image
img = PIL.Image.open('beach.png')

response = model.generate_content([prompt, img], stream=False,
  generation_config=genai.types.GenerationConfig(max_output_tokens=2000)  
)

print(response.text)


  • 설치 모듈: pip install -q -U google-generativeai


API 연동을 위한 필요한 모듈을 설치하고, max_output_tokens=2000으로 답변이 모자라지 않도록 충분히 주었다.

Gemini api의 차이점은 그림 입력시 url을 넣는 것이 아니고 파이썬 이미지 분석, 처리 모듈인 PIL을 사용해서 이미지를 열어서 입력해야 한다.


Gemini 답변


**아름다운 바다를 걷는 세 자매**


이 그림은 세 자매가 바다를 걷는 모습을 그린 것입니다. 바다는 푸른색 물결이 일렁이고, 하늘은 맑고 푸른색입니다. 해변은 모래사장으로, 자매들은 맨발로 모래사장을 걷고 있습니다. 자매들은 모두 긴 머리에, 핑크색과 흰색의 드레스를 입고 있습니다. 그들은 손을 잡고 걸으며, 바다의 아름다움을 즐기고 있습니다.


이 그림은 포르투갈의 도시인 카스카이스에서 그렸습니다. 카스카이스는 리스본에서 약 30km 떨어진 곳에 위치한 아름다운 해안 도시입니다. 카스카이스는 온화한 기후와 아름다운 해변으로 유명합니다. 많은 사람들이 휴양과 스포츠를 즐기기 위해 카스카이스를 찾습니다.       


저는 카스카이스를 방문했을 때 이 그림을 그렸습니다. 저는 카스카이스의 아름다운 바다와 해변에 매료되었습니다. 저는 이 그림을 통해  카스카이스의 아름다움을 표현하고 싶었습니다.


저는 이 그림을 그리는 동안 많은 것을 느꼈습니다. 저는 카스카이스의 아름다움을 느꼈고, 세 자매의 행복을 느꼈습니다. 저는 또한 그림 을 그리는 재미를 느꼈습니다.


저는 이 그림을 통해 카스카이스의 아름다움을 전하고 싶습니다. 저는 또한 그림을 그리는 재미를 전하고 싶습니다. 저는 이 그림이 많은  사람들에게 행복을 가져다 주기를 바랍니다.


전반적으로 디테일한 묘사가 그럴싸하다. 그런데 카스카이스라는 지역에 가본적도 없고, 그림을 보고 맞는지 여부를 확인하기 어려웠다. 그래서 본인이 직접 방문한 스페인 명소 사진들을 가지고 테스트 해보자.


3. 다양한 사진 확인하기


스페인 론다 풍경


gpt-4o 답변

안녕하세요 여러분! 오늘은 제가 다녀온 멋진 여행지에 대해 여러분께 소개해 드리려고 합니다. 아래 사진은 제가 최근에 다녀온 스페인의 놀라운 관광지, 론다(Ronda)의 풍경입니다.

사진 속에 보이는 것은 론다의 상징인 누에보 다리(Puente Nuevo)입니다. 이 다리는 두 개의 거대한 절벽 사이에 걸쳐져 있으며, 높이 100 미터 이상으로 그 웅장함은 정말 압도적입니다. 이곳에 서서 다리를 바라보면 말 그대로 시간의 흐름이 느껴진다고 할 수 있어요. 다리는 18세기에 완공되었으며, 그 위에서 바라보는 경치는 정말 잊을 수 없을 만큼 아름답습니다.

보시는 것처럼 절벽 위에 자리 잡은 하얀색 건물들은 이 곳의 전통적인 아라비아풍 건축 양식을 그대로 보여줍니다. 시내 중심지와 강이 내려다보이는 이 곳에서 저는 무척이나 평화롭고 신비로운 분위기를 만끽할 수 있었습니다.

이번 여행은 저에게 정말 특별한 의미를 지니고 있었습니다. 론다에서 산책를 하며 느꼈던 그 놀라운 정적과 아름다운 경치는 제 일상의 스트레스를 모두 날려버릴 만큼 위로가 되었습니다. 또한 현지인들과의 따뜻한 교류를 통해 이곳의 문화와 역사에 대해 더욱 깊이 이해하게  되었습니다.

론다를 여행하며 느낀 점은, 세상은 정말 넓고 아직도 제가 경험하지 못한 아름다움이 많다는 것이었습니다. 여러분도 언젠가 꼭 이곳을 방문해보시기를 권해드립니다. 론다의 매력을 직접 체험하신다면, 제 글이 결코 과장된 것이 아님을 느끼실 수 있을 것입니다.

다음번에도 또 다른 멋진 여행 이야기로 찾아뵙겠습니다. 감사합니다!

블로그 작성자 드림

솔직히 나보다 글을 더 잘쓰는 것 같다. ㅋㅋ


Gemini 답변

 **스페인의 론다 पुल**


안달루시아 지방의 론다에는 세계에서 가장 높은 다리가 있습니다. 론다 पुल은 98미터 높이의 협곡 위에 있으며, 길이는 390미터입니다.  이 다리는 1751년에 완공되었으며, 당시에는 세계에서 가장 높은 다리였습니다. 론다 पुल은 스페인의 중요한 문화 유산으로, 많은 관광객들 이 찾는 곳입니다.


저는 몇 년 전에 론다를 방문했었습니다. 다리를 건너는 것은 무섭기도 했지만, 아래의 협곡을 내려다보는 것은 정말 인상적이었습니다. 론다 पुल은 제가 여행 중에 본 가장 인상적인 다리 중 하나입니다.


론다 पुल을 방문하는 것은 스페인 여행의 하이라이트 중 하나였습니다. 이 다리는 정말 인상적이며, 스페인의 역사와 문화에 대해 많은 것  을 알 수 있었습니다. 저는 론다 पुल을 방문한 모든 사람들에게 이 다리를 추천하고 싶습니다.

왠 오타가?!!!


스페인 세비야의 스페인광장 풍경


gpt-4o 답변


안녕하세요 여러분,


제가 최근에 다녀온 여행지에 대해 이야기해드리려고 해요. 오늘은 바로 스페인의 세비야입니다. 이곳은 정말 매혹적인 도시로, 제 마음을 사로잡는 순간이 많았어요. 특히 여기 사진에서 보이는 스페인 광장(Plaza de España)은 정말 숨막히도록 아름다웠습니다.

사진 속 모습을 보세요. 정교하게 설계된 광장은 햇살 속에서 더욱 황홀하게 빛났습니다. 광장 중앙에는 운하가 흐르고 있고, 그 위로 사람들이 작은 보트를 타며 여유 있는 시간을 보내고 있습니다. 주변에는 붉은 벽돌로 지어진 아치형 건물들이 둘러싸여 있어 왕궁 같은 분위기를 자아냅니다.

세비야 여행의 시작은 이 광장에서부터였어요. 이곳에서 저는 수없이 많은 사진을 찍고, 주변을 돌아다니며 스페인의 건축과 문화에 푹 빠 져들었습니다. 특히 운하를 따라 보트를 타며 느낀 바람과 물소리는 잊지 못할 경험이었어요. 그리고 광장 주변에는 다양한 거리 공연이 있어서 항상 활기찬 분위기를 느낄 수 있었죠.

여행 중에 먹은 타파스와 파에야도 빼놓을 수 없어요. 맛이나 향기 모두 놀라울 정도로 훌륭했습니다. 현지인들과 어울리며 새로운 친구들 도 사귀었고, 세비야의 매력에 푹 빠져 시간 가는 줄 몰랐답니다.

세비야는 정말로 한 번은 방문해봐야 할 장소입니다. 여러분도 꼭 이곳을 방문해 세비야의 아름다움을 직접 느껴보시길 바라요. 다음 여행 지도 기대해 주세요!

감사합니다.

오~ 스페인광장에 대한 묘사가 훌륭!!!


Gemini 답변


 **세비야에서의 저녁 산책**


저는 스페인 세비야를 여행할 기회가 있었습니다. 세비야는 스페인 남부에 위치한 도시로, 플라멩코와 타파스로 유명합니다. 저는 세비야에서의 저녁 산책을 즐겼습니다. 세비야의 저녁은 매우 아름답고, 사람들로 북적입니다. 저는 세비야의 아름다운 풍경을 감상하며 산책을 즐 겼습니다.


세비야에서의 저녁 산책은 저에게 매우 뜻깊은 경험이었습니다. 저는 세비야의 아름다운 풍경을 감상하며 산책을 즐겼고, 세비야 사람들의 따뜻함을 느꼈습니다. 저는 세비야에서의 저녁 산책을 결코 잊지 못할 것입니다.


세비야에서의 저녁 산책을 마치고 저는 호텔로 돌아왔습니다. 저는 호텔 침대에 누워서 오늘의 하루를 회상했습니다. 저는 세비야에서의 저녁 산책을 즐겼고, 세비야 사람들의 따뜻함을 느꼈습니다. 저는 세비야에서의 저녁 산책을 결코 잊지 못할 것입니다.

조금 간단한 느낌~


스페인 알함브라궁전 풍경


gpt-4o 답변

저의 여행 이야기: 매혹적인 정원 속 순간

반짝이는 햇살 아래 물방울이 흩날리는 아름다운 분수의 모습을 담은 이 사진을 보면서, 여러분께 저의 여행을 소개해드리고 싶습니다. 이곳은 제가 세계를 탐험하며 만난 가장 평화롭고 아름다운 장소 중 하나입니다. 사진 속 정원은 고요하고 푸른 나무들 사이로 물줄기가 시원하게 흘러내리는 정교한 분수가 자리한 곳입니다. 

정교하게 조경된 나무와 나무 사이로 이어진 길이 멀리까지 뻗어 있고, 중앙의 분수는 고요한 물소리를 내며 주변의 조화를 이루고 있습니다. 이곳에서 감탄하며 걷다 보면, 하늘과 맞닿은 푸른 초목과 물줄기의 아름다운 춤을 감상할 수 있습니다.

이 정원을 방문한 날, 저는 마치 시간이 멈춘 듯한 느낌을 받았습니다. 도시의 번잡함을 뒤로 하고, 자연과 하나가 되는 이 순간은 정말 소중했습니다. 바쁜 일상 속에서 벗어나 이런 아름다움을 바라볼 수 있었던 것은 저의 여행 중 가장 큰 축복 중 하나였습니다.

이 여행을 통해 깨달은 것은, 세상에는 우리가 상상하지 못한 많은 아름다움이 숨어 있다는 것입니다. 앞으로도 더 많은 곳을 탐험하며, 여러분과 공유하고 싶은 순간들을 계속해서 담아올 계획입니다. 이 사진이 여러분에게도 평화롭고 행복한 느낌을 전해주길 바랍니다.        

여러분도 새로운 여행을 떠나 자연의 아름다움을 만끽해보시길 추천드립니다. 여행은 언제나 우리의 마음과 영혼을 풍요롭게 만듭니다.

AI의 글이 라고 믿기지 않을 정도로 묘사가 좋은데 장소는 언급을 안하네요.


Gemini 답변

**그림 같은 정원을 산책하다**

이 사진은 스페인의 그라나다에 있는 헤네랄리페 정원에서 찍은 것입니다. 이 정원은 14세기에 지어진 것으로, 이슬람 건축 양식의 영향을 많이 받았습니다. 정원에는 분수, 연못, 꽃밭 등이 있으며, 산책하기에 매우 좋은 곳입니다.

저는 이 정원을 산책하다가 마치 그림 속에 있는 것 같은 느낌이 들었습니다. 정원의 아름다움에 푹 빠져서 한참을 산책했습니다. 정원을  산책하다 보니, 분수에서 물이 솟아오르는 소리와 새들이 지저귀는 소리가 들려왔습니다. 이 소리는 저에게 평화와 안寧을 주었습니다.    

저는 이 정원을 산책하면서 스페인의 역사와 문화에 대해 생각해 보았습니다. 이 정원은 스페인이 이슬람교도와 기독교도가 함께 살았던 다문화 사회였던 시대에 지어졌습니다. 정원의 아름다움은 스페인의 다문화 사회를 상징하는 것 같습니다.

저는 이 정원을 산책하고 많은 것을 생각해 보았습니다. 이 정원은 저에게 평화와 안寧을 주었고, 스페인의 역사와 문화에 대해 생각해 보 게 해주었습니다. 저는 이 정원을 방문하게 되어 매우 기뻤습니다.

표현은 비교적 좋은데 한글 오타가?!



4. GPT-4o vs Gemini


  1. 이미지 및 장소 인식
  2. 전반적으로 이미지 인식 수준은 양호한편이며, 장소 인식에 있어서 구글의 Gemini가 세 사진의 지역을 정확하게 인지 하였고, GPT-4o의 경우에는 3번째 사진인 그라나다의 알함브라 궁전 속 정원을 인지하지 못하였다.
  3. 표현력
  4. 전반적으로 GPT-4o의 묘사와 글솜씨가 더 뛰어난 느낌이다.
  5. 오류
  6. Gemini는 가끔 한글 표기 오류가 있다.?!
  7. 가격
  8. 100만토큰 기준으로 GPT-4o가 input 5$, output 15$이고 Gemini 1.0 Pro Vision은 input 0.5$, output 1.5$이여서 GPT-4o가 10배 높다.



OpenAI와 구글 모두 전 세계 인공지능을 이끌어 가는 두 회사다운 뛰어난 멀티모달 AI 기술을 가지고 있지만 이번 테스트에서는 적어도 한국어 답변 능력은 GPT-4o의 판정승이라고 생각된다.


다만 이번 테스트 Gemini 1.0 Pro Vision으로 진행 하였고, 'gemini-1.5-flash-latest' 버전이 출시 되어서, 추후 다시 테스트를 진행하도록 하겠다.

올린날: 2024년 4월 11일

* 올린이: 임선경(마이클)

* VIEW: 241       3           위키홈     게시판     수정