Bu makale, Büyük Dil Modellerinin (BDM’lerin) finansal konulara bilgi ve çözüm sağlama yeteneklerini karşılaştırmalı olarak değerlendirmeyi amaçlamaktadır. Bu kapsamda, Google’ın Bard’ı, OpenAI’nin ChatGPT’si ve GPT-4 modelleri dikkate alınmıştır. Her üç BDM’nin de risk ve getiri hesaplamalarının gerektirdiği temel hesaplama becerilerinden farklı düzeylerde yoksun olduğu bulunmuştur. Bard’ın risk ve getiri hesaplamalarında hem tarihsel hem de olasılıksal yaklaşımlarla en kötü performansı gösterdiği tespit edilmiştir. ChatGPT ve GPT-4, paranın zaman değeri kavramını farklı eğitim geçmişlerine sahip üç grup insana açıklamada oldukça tatmin edici performanslara sahiptir. Bard’ın ortaöğretim mezununa yönelik sayısal örneği zaman boyutunda paranın değişkenlik gösteren değerini yansıtamadığı için BDM kullanıcısının kafasını karıştırıcı, öte yandan sözel açıklamaları kabul edilebilir bulunmuştur. BDM’ler, tahvil değerlemesi konusunda kavramsal olarak tatmin edici açıklamalar getirirken, uygulamada tutarlı çözümler sunamamıştır. Bard, genel olarak istemlere en yanıltıcı cevapları vermektedir. GPT 4 verilen kredi derecelendirmeleri ve getiri oranları arasındaki tutarsızlıkları tespit edebilmekte ve diğerlerinden farklı olarak sıralamayı doğru yapabilmektedir. Sermaye bütçelemesi kapsamında modellerden üç proje arasından, sonuçları farklılaştıran kriterlerle seçim yapmaları istenmiştir. Bard’ın çözümleri göstermeksizin tablo olarak sunduğu sonuçlar, doğru ölçütlerden önemli ölçüde sapmaktadır. ChatGPT, karar kurallarını kendi çıktılarına tutarlı bir şekilde uygularken, düzenli nakit akışları verildiğinde fazladan nakit akışı halüsinasyonu göstermektedir. Genel olarak BDM'ler, işletme finansında gerekli nicel becerilerden yoksun olsa da konuları ve karar kurallarını sözlü olarak açıklamada başarılıdır. Bu açıdan BDM’ler, toplumların finansal farkındalık ve okuryazarlık seviyelerini yükseltmelerine yardımcı olmakla kalmayıp, aynı zamanda finansın öncü yeniliklere entegrasyonunu da kolaylaştırabilir. Elektronik tablo uygulamalarında kanıtlanmış formüllerin kullanılması, nicel taraftaki eksikliklerin giderilmesine yönelik bir çözüm olarak önerilmektedir.
This paper aims to assess the capacities of Large Language Models (LLMs) in providing information and solutions to financial topics comparatively. The models considered are Google’s Bard, OpenAI’s ChatGPT, and GPT-4. All LLMs are found to lack the basic computational skills demanded by risk and return calculations, to varying degrees. Bard is the worst performer in risk and return calculations with both historical and probabilistic approaches. ChatGPT and GPT-4 have highly satisfying performances in explaining the time value of money concept to three groups of people with varying educational backgrounds. Bard’s numerical example addressed to a secondary school graduate is found confusing due to its failure to reflect the time-varying value of money, while verbal explanations are regarded as acceptable. Despite satisfactory theoretical exposition on bond valuation, LLMs could not present consistent solutions in practice. Bard generally turns out to provide the most misleading responses to prompts. GPT-4 can identify the inconsistencies between given credit ratings and required returns; moreover, it can achieve a correct ranking unlike others. With capital budgeting, models are asked to choose from three projects based on criteria that result in different outcomes. Bard’s tabulated results, with no explicit solutions, deviate considerably from the correct metrics. While implementing decision rules in accordance with its outputs, ChatGPT hallucinates a redundant cash flow with a regular cash flow pattern. Although LLMs broadly lack the necessary quantitative skills in business finance, they are successful in explaining topics and related decision rules verbally. In this respect, LLMs can not only help to raise society’s financial awareness and literacy, but they can also facilitate the integration of finance into leading innovations. Proven formulas in spreadsheets are recommended to make up for the deficiencies on the quantitative facet.
By subscribing to E-Newsletter, you can get the latest news to your e-mail.