Comparative Analysis of Artificial Intelligence Performance Across Multimodal Tasks
Visual Representation of AI Competence Levels
- Blog Yazısı
Comparative Analysis of Artificial Intelligence Performance Across Multimodal Tasks
This research presents a comprehensive comparative evaluation of three advanced artificial intelligence models ChatGPT, Gemini, and Copilot tested across multiple performance dimensions. All models examined in this study were used in their freely accessible, non-premium versions to ensure equal testing conditions. The primary objective is to analyze their efficiency, technical proficiency, and interpretative accuracy across three principal skill domains: visual generation, software development, and mathematical reasoning.
A Photo Generation Test Results.
Each AI model was given two visual generation prompts to assess its creative capabilities. Performance was evaluated in three categories: response speed, technical skill, an comprehension accuracy.
Prompt for the First Image:
A man is seated on a wooden chair in a dimly lit vintage room, wearing an oversized jacket in a skin tone hue. Sunlight filters through the window blinds, casting dramatic striped shadows across his face and the surrounding wall. The atmosphere evokes a nostalgic and contemplative mood, enriched with a soft golden hue and warm tonal palette. The facial features should remain consistent, and the image should maintain a 9:16 aspect ratio.
Photo Generation - Test 1
Model Speed (s) Skill Comprehension Overall Score
Gemini 10 8 10 9.3 / 10
ChatGPT 15 6 10 8.0 / 10
Copilot 140 8 10 6.6 / 10
Aslında maddi destek istememizin nedeni çok basit: Çünkü Evrim Ağacı, bizim tek mesleğimiz, tek gelir kaynağımız. Birçoklarının aksine bizler, sosyal medyada gördüğünüz makale ve videolarımızı hobi olarak, mesleğimizden arta kalan zamanlarda yapmıyoruz. Dolayısıyla bu işi sürdürebilmek için gelir elde etmemiz gerekiyor.
Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak (yani kendi mesleğimiz doğrultusunda bir iş sahibi olursak) Evrim Ağacı'na zaman ayıramayacağımızı, ayakta tutamayacağımızı biliyoruz. Çünkü az sonra detaylarını vereceğimiz üzere, Evrim Ağacı sosyal medyada denk geldiğiniz makale ve videolardan çok daha büyük, kapsamlı ve aşırı zaman alan bir bilim platformu projesi. Bu nedenle bizler, meslek olarak Evrim Ağacı'nı seçtik.
Eğer hem Evrim Ağacı'ndan hayatımızı idame ettirecek, mesleklerimizi bırakmayı en azından kısmen meşrulaştıracak ve mantıklı kılacak kadar bir gelir kaynağı elde edemezsek, mecburen Evrim Ağacı'nı bırakıp, kendi mesleklerimize döneceğiz. Ama bunu istemiyoruz ve bu nedenle didiniyoruz.
Gemini demonstrated superior speed and overall quality, while ChatGPT showed strong interpretative understanding. Copilot produced acceptable results but with significantly longer response times.
Prompt for the Second Image:
Transform the original image into a black-and-white portrait captured from a three quarter angle, with the subject’s body slightly turned while the face remains directed to the left. The expression should convey calm contemplation or deep emotion. Employ a soft, single source studio light from one side a cinematic side lighting technique to create a high contrast chiaroscuro effect, illuminating one half of the face while the other remains dramatically shadowed.
Photo Generation – Test 2
Model Speed (s) Skill Comprehension Overall Score
Gemini 8 8 6 9.3 / 10
ChatGPT 10 4 8 8.0 / 10
Copilot 135 7 6 6.6 / 10
In the second test, Gemini again outperformed its peers with superior speed and balanced comprehension. ChatGPT displayed logical understanding but lower visual fidelity, while Copilot lagged behind in speed.
Overall Averages (Photo Generation),
Model Avg. Speed (s) Avg. Skill Avg. Comprehension OverallAvg. Score
Gemini 9 8 8 8.65 / 10
ChatGPT 12.5 5 9 7.5 / 10
Copilot 137.5 7.5 8 5.8 / 10
B. Software Development and Setup Test
Each model was tasked with building a C# To Do List application using Visual Studio Community. The task required the AI to guide a non-technical user through the setup and coding process.
Gemini achieved the fastest completion time (8 seconds) and integrated interactive checkboxes, enhancing user engagement. ChatGPT produced a more logically complete structure but lacked visual interactivity. Copilot created a functional but basic implementation.
ChatGpt: Developed a functional “To Do List” application that allows users to add and delete tasks. The application operates effectively, though it remains minimal in terms of visual design and interactive features.
Gemini: Integrated clickable checkboxes, enhancing user engagement and interactivity. However, the functional depth of the application was relatively limited.
Copilot: Did not include checkboxes or interactive elements; it was restricted to generating a basic, static task list.
Model Speed (s) Skill Comprehension Overall Score
Gemini 8 5 7 7.3 / 10
ChatGPT 37 6 5 5.7 / 10
Copilot 12 4 4 5.7 / 10
C. Mathematical Reasoning and Logical Analysis
Each model was presented with a real-world percentage and tax calculation problem. All three AIs successfully reached the correct final answer (176 TL (Turkish Lira)).
Model Speed (s) Skill Comprehension Overall Score
Gemini 5 10 10 8.7 / 10
ChatGPT 7 9 9 8.3 / 10
Copilot 7 9 9 8.3 / 10
Overall Performance Summary
Model Photo Gen. Software Dev. Math Res. Overall Avg.
Gemini 8.65 7.3 8.3 8.1 / 10
ChatGPT 7.5 5.7 8.3 7.2 / 10
Copilot 5.8 5.7 8.7 6.7 / 10
Conclusion and Analytical Report
The comparative study reveals that all three AI systems demonstrate high analytical and computational accuracy, yet they vary in their execution speed, depth of reasoning, and expressive sophistication. Gemini consistently excels in visual and interactive responsiveness, while ChatGPT offers a balanced synthesis of logic and communication clarity. Copilot, although technically robust in mathematical processing, lags behind in creative and interactive tasks.
In conclusion, Gemini stands out as the most versatile model across multimodal tasks, ChatGPT excels in structured reasoning and explanation, and Copilot performs best in rapid, computation-driven operations. Creative and interactive tasks
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- Google Docs. Ai_Comparative_Research_Reports.pdf. (2 Kasım 2025). Alındığı Tarih: 11 Ocak 2026. Alındığı Yer: Google Docs | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 10/05/2026 21:55:17 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/22095
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.