🎙️ Tech and Testament: Episode #6
A technology updates podcast from the ETEN Innovation Lab
Audio and text versions of this post can be found below in the following languages:
English
Français
Español
官话
عربي
हिन्दी
Links to more information about things mentioned in the episode:
English
Audio:
Transcript:
Welcome to another episode of the Bible translation technology podcast, called Tech and Testament. This podcast is presented by the Every Tribe Every Nation Innovation Lab and is curated by me, Daniel Whitenack, founder and CEO at Prediction Guard. Each episode of Tech and Testament will provide updates on advancements in artificial intelligence and language technology. We will also reflect on how this technology might impact or intersect with Bible translation.
As a reminder you can find translations of the show into French, Spanish, Hindi, Mandarin, and Arabic on our substack page. And let’s practice some community checking. Please let us know if you find errors in these translations, so we can improve the translation quality.
Also I want to remind everyone listening about the Missional AI Summit, which will take place the 9th through the 11th of April 2024 at the Wycliffe Headquarters in Orlando, Florida. This is the main event of the year if you are wanting to gather with those who are practically applying AI within a missional context like Bible Translation, scripture engagement, or digital discipleship. Make sure you register at missional.ai and start planning your trip!
Now… let’s turn to some of the latest AI news. Probably the biggest thing in AI over the past few weeks was the release of OpenAI’s Sora model. This model is a text-to-video model that seems to produce some really compelling videos. In fact the demonstrations by OpenAI show the generation of high fidelity videos as long as one minute.
There have been a variety of image-to-video and text-to-video models released in the past. For example, RunwayML has allowed users to turn static images into videos in their platform. However, most of these models and systems produce very short videos (like 3-5 seconds) or very low fidelity or low resolution videos. Sora from OpenAI seems to push the boundaries of video generation quite a bit further.
This is an audio podcast, so it is a bit difficult to describe the look and feel of the videos from Sora. I recommend that you follow the link in the show notes to see for yourself. There are videos of quite realistic looking people walking, riding bikes, having birthday parties and more in all sorts of different environments. I might not be a videographer, and I’m sure that some videographers would gripe about some of the qualities of the videos. But for a layperson, they are quite compelling.
For the world of Bible translation, I could see this making a significant impact on translator resources and scripture engagement. I know that important work is already underway on video Bible dictionary content for translators. This technology could provide an interesting, and dynamic way to supplement and/or accelerate such work. It may also be possible to augment scripture engagement materials with compelling video content to help people engage with scripture visually. Imagine providing scripture engagement materials with compelling video scenes generated by Sora paired with audio Bible or Bible story content.
In fact, this scenario is already playing out on the Internet in interesting ways. Projects like “The AI Bible”, which has become very popular on Instagram, have tried to visualize scripture passages based on prompts to AI models. Some of these visualizations are quite interesting and have captured widespread attention, especially those depicting angelic beings and the spiritual realm.
Now… I definitely think that there could be some issues in applying text-to-image and text-to-video models in this way. These models are mostly trained on modern photography and graphics, which means that they might come up lacking when trying to visualize scenes from the ancient near east, for example. And, we don’t have any good photography or videos of the spiritual realm, because it is, just that, spiritual. However, we have to admit that the videos coming out of models like Sora are impressive, and, if we applied them with a proper understanding of their limitations, it is likely that they could help us in engaging people with the Bible and translator resources.
Whether it be Sora or other models, dealing with the limitations of these models and making sure we apply them in responsible ways is always easier if the models are released in a transparent and open access manner. Of course, OpenAI’s Sora model has not been released in this way (or at all at this point), and we don’t expect them to release the model openly. When models (and ideally corresponding datasets) are released openly, they can be researched more thoroughly and tooling can be developed to hone in their behaviors for certain applications. It’s also less likely that users will experience variabilities and biases in the models caused, not by the models, but by the extra product layers surrounding the models.
This was made painfully clear by another model family that released new updates over the past few weeks: Google Gemini. The Gemini models didn’t release video generating functionality to rival OpenAI’s Sora, but they did release text-to-image functionality. Pretty quickly it was clear that this text-to-image functionality from Gemini was flawed and biased in quite disturbing ways, which are likely explained by intentional product filters, layers, or logic paired with the Gemini models. I’ll let you look up the news stories around Gemini to see the exact kinds of output that were observed. I only mention here to emphasize the upsides of an open access approach, where transparency can help to explain and correct flawed behaviors.
Interestingly, while Google is holding back some models like the text-to-image model in Gemini as closed, restricted access models, they also released a series of new models permissively. The permissively licensed models are called Gemma models, and have been released with seemingly permissive terms for both non-commercial and commercial use. Over the coming weeks, we will see many people experiment with and improve these models using their own datasets and fine-tuning methodologies. A whole family of models will be produced out of the original Gemma models, and biases and flaws will be dealt with in a transparent manner.
I had the privilege of attending the TreeHacks hackathon at Stanford University where over 1500 students gathered to build technology products over a weekend. I was blown away by the creativity of these students and what they could do when applying open source software and open access AI models. We had a student team in our track build a mesh network of low power radios called MeshWorks. These students enabled the communication of voice messages over long distances with low power devices and processed those voice messages with open LLMs to trigger actions, connect disaster relief units with resources, and more.
This environment of innovation with open models is super encouraging for me, and I’m sure that, even if OpenAI’s Sora model stays closed, many open alternatives will follow. We will see even more possibilities open up for use of these models in secure environments and even offline. Thus, it’s worth our exploration of the hosted, closed versions as a preview of what is to come and a playground for how we can use this technology in Bible Translation.
If you want to find out more about these developments, check out the links in the show notes. Thanks for listening, and look for another episode of Tech and Testament soon!
Español
Audio:
Transcripción
Bienvenido a otro episodio del podcast sobre tecnología de traducción de la Biblia, llamado Tech and Testament. Este podcast es presentado por el Every Tribe Every Nation Innovation Lab y está comisariado por mí, Daniel Whitenack, fundador y director ejecutivo de Prediction Guard. Cada episodio de Tech and Testament proporcionará actualizaciones sobre los avances en inteligencia artificial y tecnología del lenguaje. También reflexionaremos sobre cómo esta tecnología podría afectar o interactuar con la traducción de la Biblia.
Como recordatorio, puedes encontrar traducciones de la serie al francés, español, hindi, mandarín y árabe en nuestra página de subpila. Y practiquemos un poco de verificación comunitaria. Háganos saber si encuentra errores en estas traducciones para que podamos mejorar la calidad de la traducción.
También quiero recordar a todos los que me están escuchando la Cumbre sobre la IA Misional, que tendrá lugar del 9 al 11 de abril de 2024 en la sede de Wycliffe en Orlando, Florida. Este es el evento principal del año si queréis reuniros con quienes están aplicando prácticamente la IA en un contexto misional, como la traducción de la Biblia, la participación en las Escrituras o el discipulado digital. ¡Asegúrate de registrarte en missional.ai y comienza a planificar tu viaje!
Ahora... pasemos a algunas de las últimas noticias sobre IA. Probablemente lo más importante de la IA en las últimas semanas haya sido el lanzamiento del modelo Sora de OpenAI. Este modelo es un modelo de conversión de texto a vídeo que parece producir algunos vídeos realmente atractivos. De hecho, las demostraciones de OpenAI muestran la generación de vídeos de alta fidelidad de hasta un minuto.
En el pasado, se han lanzado una variedad de modelos de imagen a video y de texto a video. Por ejemplo, RunwayML ha permitido a los usuarios convertir imágenes estáticas en vídeos en su plataforma. Sin embargo, la mayoría de estos modelos y sistemas producen vídeos muy cortos (de 3 a 5 segundos) o vídeos de muy baja fidelidad o baja resolución. Sora de OpenAI parece ir un poco más allá de los límites de la generación de vídeo.
Este es un podcast de audio, por lo que es un poco difícil describir la apariencia de los vídeos de Sora. Te recomiendo que sigas el enlace de las notas del programa para comprobarlo por ti mismo. Hay vídeos de personas de aspecto bastante realista caminando, montando en bicicleta, celebrando fiestas de cumpleaños y más en todo tipo de entornos diferentes. Puede que no sea camarógrafo, y estoy seguro de que algunos camarógrafos se quejarán de algunas de las cualidades de los videos. Pero para un profano, son bastante convincentes.
Para el mundo de la traducción de la Biblia, veo que esto tiene un impacto significativo en los recursos de los traductores y en la participación en las Escrituras. Sé que ya se está trabajando de manera importante en relación con el contenido de los diccionarios bíblicos en vídeo para traductores. Esta tecnología podría proporcionar una forma interesante y dinámica de complementar y/o acelerar ese trabajo. También es posible aumentar los materiales relacionados con las Escrituras con contenido de vídeo atractivo para ayudar a las personas a interactuar visualmente con las Escrituras. Imagina ofrecer materiales relacionados con las Escrituras con atractivas escenas de vídeo generadas por Sora junto con contenido en audio sobre la Biblia o historias bíblicas.
De hecho, este escenario ya se está desarrollando en Internet de maneras interesantes. Proyectos como «La Biblia de la IA», que se ha hecho muy popular en Instagram, han intentado visualizar pasajes de las Escrituras basándose en indicaciones hechas a partir de modelos de IA. Algunas de estas visualizaciones son muy interesantes y han captado la atención de todos, especialmente las que representan seres angelicales y el reino espiritual.
Ahora... definitivamente creo que podría haber algunos problemas al aplicar los modelos de texto a imagen y de texto a vídeo de esta manera. Estos modelos se basan principalmente en la fotografía y los gráficos modernos, lo que significa que pueden faltar cuando se trata de visualizar escenas del antiguo Cercano Oriente, por ejemplo. Y no tenemos ninguna buena fotografía o video del reino espiritual, porque es, precisamente, espiritual. Sin embargo, tenemos que admitir que los vídeos que salen de modelos como Sora son impresionantes y, si los aplicamos con una comprensión adecuada de sus limitaciones, es probable que puedan ayudarnos a atraer a la gente a través de la Biblia y los recursos de traducción.
Ya se trate de Sora o de otros modelos, lidiar con las limitaciones de estos modelos y asegurarnos de que los aplicamos de manera responsable siempre es más fácil si los modelos se publican de forma transparente y de acceso abierto. Por supuesto, el modelo Sora de OpenAI no se ha publicado de esta manera (o no se ha publicado en absoluto en este momento), y no esperamos que lo publiquen abiertamente. Cuando los modelos (y, idealmente, los conjuntos de datos correspondientes) se publican de forma abierta, se pueden investigar más a fondo y se pueden desarrollar herramientas para perfeccionar su comportamiento en determinadas aplicaciones. También es menos probable que los usuarios experimenten variaciones y sesgos en los modelos causados, no por los modelos, sino por las capas de producto adicionales que los rodean.
Esto lo ha dejado muy claro otra familia de modelos que ha publicado nuevas actualizaciones en las últimas semanas: Google Gemini. Los modelos Gemini no lanzaron una funcionalidad de generación de vídeo que pudiera competir con Sora de OpenAI, pero sí lanzaron la función de conversión de texto a imagen. Rápidamente quedó claro que esta funcionalidad de conversión de texto a imagen de Gemini era defectuosa y sesgada de maneras bastante preocupantes, lo que probablemente se explica por los filtros, las capas o la lógica intencionales de los productos combinados con los modelos Gemini. Dejaré que consultes las noticias sobre Gemini para ver los tipos exactos de resultados que se observaron. Lo menciono aquí solo para enfatizar las ventajas de un enfoque de acceso abierto, donde la transparencia puede ayudar a explicar y corregir los comportamientos erróneos.
Es interesante observar que, si bien Google está postergando algunos modelos, como el modelo de conversión de texto a imágenes de Gemini, por considerarlos modelos cerrados y de acceso restringido, también ha lanzado una serie de nuevos modelos de forma permisiva. Los modelos con licencia permisiva se denominan modelos Gemma y se han lanzado con términos aparentemente permisivos tanto para uso comercial como no comercial. Durante las próximas semanas, veremos a muchas personas experimentar con estos modelos y mejorarlos utilizando sus propios conjuntos de datos y metodologías de ajuste. Se producirá toda una familia de modelos a partir de los modelos originales de Gemma, y los sesgos y defectos se abordarán de manera transparente.
Tuve el privilegio de asistir al hackathon TreeHacks en la Universidad de Stanford, donde más de 1500 estudiantes se reunieron para crear productos tecnológicos durante un fin de semana. Me impresionó la creatividad de estos estudiantes y lo que podían hacer al aplicar el software de código abierto y los modelos de IA de acceso abierto. Hicimos que un equipo de estudiantes construyera una red en malla de radios de bajo consumo llamada MeshWorks. Estos estudiantes permitían la comunicación de mensajes de voz a largas distancias con dispositivos de bajo consumo y procesaban esos mensajes de voz con un LLM abierto para iniciar acciones, conectar las unidades de ayuda en casos de desastre con los recursos y mucho más.
Este entorno de innovación con modelos abiertos es muy alentador para mí, y estoy seguro de que, aunque el modelo Sora de OpenAI se mantenga cerrado, surgirán muchas alternativas abiertas. Veremos que se abren aún más posibilidades para el uso de estos modelos en entornos seguros e incluso fuera de línea. Por lo tanto, vale la pena explorar las versiones alojadas y cerradas como un adelanto de lo que está por venir y como una muestra de cómo podemos utilizar esta tecnología en la traducción de la Biblia.
Si quieres obtener más información sobre estas novedades, consulta los enlaces de las notas del programa. Gracias por escuchar, ¡y esperad pronto otro episodio de Tech and Testament!
Français
l'audio
Transcription
Bienvenue dans un autre épisode du podcast sur la technologie de traduction de la Bible, intitulé Tech and Testament. Ce podcast est présenté par le laboratoire d'innovation Every Tribe Every Nation et a été organisé par moi, Daniel Whitenack, fondateur et PDG de Prediction Guard. Chaque épisode de Tech and Testament fournira des mises à jour sur les avancées en matière d'intelligence artificielle et de technologie du langage. Nous réfléchirons également à l'impact ou à l'intersection de cette technologie avec la traduction de la Bible.
Pour rappel, vous pouvez trouver les traductions de l'émission en français, espagnol, hindi, mandarin et arabe sur notre page des sous-séries. Et pratiquons le community checking. Veuillez nous informer si vous trouvez des erreurs dans ces traductions, afin que nous puissions améliorer la qualité de la traduction.
Je tiens également à rappeler à tous ceux qui écoutent le Missional AI Summit, qui aura lieu du 9 au 11 avril 2024 au siège de Wycliffe à Orlando, en Floride. Il s'agit de l'événement principal de l'année si vous souhaitez vous réunir avec ceux qui appliquent pratiquement l'IA dans un contexte missionnaire tel que la traduction de la Bible, l'engagement dans les Écritures ou la formation de disciples numériques. Assurez-vous de vous inscrire sur missional.ai et commencez à planifier votre voyage !
Passons maintenant à certaines des dernières actualités en matière d'IA. L'événement le plus important en matière d'IA au cours des dernières semaines a probablement été la sortie du modèle Sora d'OpenAI. Ce modèle est un modèle de conversion de texte en vidéo qui semble produire des vidéos vraiment captivantes. En fait, les démonstrations d'OpenAI montrent la génération de vidéos haute fidélité d'une durée d'une minute.
Divers modèles de conversion d'image en vidéo et de texte en vidéo ont été publiés par le passé. Par exemple, RunwayML a permis aux utilisateurs de transformer des images statiques en vidéos sur leur plateforme. Cependant, la plupart de ces modèles et systèmes produisent des vidéos très courtes (3 à 5 secondes par exemple) ou des vidéos de très basse fidélité ou de faible résolution. Sora d'OpenAI semble repousser les limites de la génération vidéo un peu plus loin.
Il s'agit d'un podcast audio, il est donc un peu difficile de décrire l'apparence des vidéos de Sora. Je vous recommande de suivre le lien dans les notes de l'émission pour vous en rendre compte par vous-même. Il existe des vidéos de personnes d'apparence assez réaliste qui marchent, font du vélo, organisent des fêtes d'anniversaire et plus encore dans toutes sortes d'environnements différents. Je ne suis peut-être pas vidéaste, et je suis sûr que certains vidéastes critiqueraient certaines qualités des vidéos. Mais pour un profane, ils sont assez convaincants.
Pour le monde de la traduction de la Bible, j'ai pu constater que cela aurait un impact significatif sur les ressources des traducteurs et sur l'engagement envers les Écritures. Je sais qu'un travail important est déjà en cours sur le contenu vidéo des dictionnaires bibliques destinés aux traducteurs. Cette technologie pourrait constituer un moyen intéressant et dynamique de compléter et/ou d'accélérer ces travaux. Il peut également être possible de compléter les supports de consultation des Écritures par un contenu vidéo convaincant pour aider les gens à interagir visuellement avec les Écritures. Imaginez que vous fournissiez du matériel d'engagement envers les Écritures avec des scènes vidéo captivantes générées par Sora, associées à du contenu audio de la Bible ou d'une histoire biblique.
En fait, ce scénario se joue déjà de manière intéressante sur Internet. Des projets tels que « The AI Bible », qui est devenu très populaire sur Instagram, ont essayé de visualiser des passages d'Écritures en fonction des instructions données par des modèles d'IA. Certaines de ces visualisations sont très intéressantes et ont suscité une grande attention, en particulier celles représentant des êtres angéliques et le monde spirituel.
Maintenant... je pense vraiment qu'il pourrait y avoir des problèmes à appliquer des modèles texte-image et texte-vidéo de cette manière. Ces modèles sont principalement formés à la photographie et au graphisme modernes, ce qui signifie qu'ils peuvent manquer lorsqu'ils essaient de visualiser des scènes du Proche-Orient ancien, par exemple. Et nous n'avons pas de bonnes photos ou vidéos du domaine spirituel, parce que c'est juste ça, spirituel. Cependant, nous devons admettre que les vidéos produites par des modèles tels que Sora sont impressionnantes et que, si nous les appliquions en comprenant bien leurs limites, il est probable qu'elles pourraient nous aider à faire participer les gens à la Bible et aux ressources des traducteurs.
Qu'il s'agisse de Sora ou d'autres modèles, il est toujours plus facile de gérer les limites de ces modèles et de s'assurer que nous les appliquons de manière responsable si les modèles sont publiés de manière transparente et en libre accès. Bien entendu, le modèle Sora d'OpenAI n'a pas été publié de cette manière (ou pas du tout à ce stade), et nous ne nous attendons pas à ce qu'ils le publient ouvertement. Lorsque les modèles (et idéalement les ensembles de données correspondants) sont publiés ouvertement, ils peuvent faire l'objet de recherches plus approfondies et des outils peuvent être développés pour affiner leur comportement pour certaines applications. Il est également moins probable que les utilisateurs soient confrontés à des variabilités et à des biais dans les modèles causés, non pas par les modèles, mais par les couches de produits supplémentaires qui les entourent.
Cela a été clairement démontré par une autre famille de modèles qui a publié de nouvelles mises à jour au cours des dernières semaines : Google Gemini. Les modèles Gemini n'ont pas publié de fonctionnalité de génération de vidéos pour rivaliser avec Sora d'OpenAI, mais ils ont publié une fonctionnalité de conversion de texte en image. Assez rapidement, il est devenu évident que cette fonctionnalité de conversion de texte en image de Gemini était imparfaite et biaisée de manière assez inquiétante, ce qui s'explique probablement par des filtres de produits, des couches ou une logique intentionnels associés aux modèles Gemini. Je vais vous laisser consulter les actualités concernant Gemini pour voir les types exacts de résultats observés. Je ne mentionne ici que pour souligner les avantages d'une approche de libre accès, où la transparence peut aider à expliquer et à corriger les comportements erronés.
Fait intéressant, alors que Google retient certains modèles, comme le modèle texte-image de Gemini en tant que modèles fermés à accès restreint, il a également publié une série de nouveaux modèles de manière permissive. Les modèles sous licence permissive sont appelés modèles Gemma et ont été publiés avec des conditions apparemment permissives pour un usage non commercial et commercial. Au cours des prochaines semaines, de nombreuses personnes expérimenteront et amélioreront ces modèles en utilisant leurs propres ensembles de données et en affinant leurs méthodologies. Toute une famille de modèles sera produite à partir des modèles originaux de Gemma, et les biais et les défauts seront traités de manière transparente.
J'ai eu le privilège d'assister au hackathon TreeHacks à l'université de Stanford, où plus de 1 500 étudiants se sont réunis pour créer des produits technologiques pendant un week-end. J'ai été époustouflé par la créativité de ces étudiants et par ce qu'ils pouvaient faire lorsqu'ils appliquaient des logiciels libres et des modèles d'IA en libre accès. Nous avons demandé à une équipe d'étudiants de construire un réseau maillé de radios de faible puissance appelé MeshWorks. Ces étudiants ont permis la communication de messages vocaux sur de longues distances avec des appareils à faible consommation et ont traité ces messages vocaux avec des LLM ouverts pour déclencher des actions, connecter les unités de secours aux ressources, etc.
Cet environnement d'innovation avec des modèles ouverts est très encourageant pour moi, et je suis sûr que, même si le modèle Sora d'OpenAI reste fermé, de nombreuses alternatives ouvertes suivront. Nous verrons encore plus de possibilités s'ouvrir pour l'utilisation de ces modèles dans des environnements sécurisés et même hors ligne. Cela vaut donc la peine d'explorer les versions fermées hébergées pour avoir un aperçu de ce qui nous attend et comme terrain de jeu pour savoir comment nous pouvons utiliser cette technologie dans la traduction de la Bible.
Si vous souhaitez en savoir plus sur ces développements, consultez les liens figurant dans les notes de l'émission. Merci de votre écoute, et attendez bientôt un autre épisode de Tech and Testament !
官话
声音的
成绩单
欢迎收看圣经翻译技术播客的另一集,名为《科技与遗嘱》。该播客由 “每个部落每个国家” 创新实验室主持,由我,Prediction Guard创始人兼首席执行官丹尼尔·惠特纳克策划。《科技与遗嘱》的每一集都将提供有关人工智能和语言技术进步的最新信息。我们还将反思这项技术将如何影响圣经翻译或与之交叉。
提醒一下,你可以在我们的子堆栈页面上找到该节目的法语、西班牙语、印地语、普通话和阿拉伯语的翻译。让我们来练习一下社区检查。如果您在这些翻译中发现错误,请告诉我们,以便我们提高翻译质量。
我还想提醒所有听众关于Missional AI峰会的信息,该峰会将于2024年4月9日至11日在佛罗里达州奥兰多的威克利夫总部举行。如果你想与那些在圣经翻译、经文参与或数字门徒训练等宣教背景下实际应用人工智能的人聚在一起,这是今年的主要活动。一定要在 missional.ai 注册并开始计划行程!
现在... 让我们来看看一些最新的人工智能新闻。过去几周人工智能领域最大的事情可能是OpenAI的Sora模型的发布。该模型是一种文本转视频模型,似乎可以制作一些非常引人入胜的视频。实际上,OpenAI的演示显示了长达一分钟的高保真视频的生成。
过去曾发布过各种图像到视频和文本到视频的模型。例如,RunwayML 允许用户在其平台上将静态图像转换为视频。但是,这些模型和系统中的大多数都会制作非常短的视频(例如3-5秒)或非常低的保真度或低分辨率的视频。来自OpenAI的Sora似乎进一步突破了视频生成的界限。
这是一个音频播客,因此很难描述来自Sora的视频的外观和感觉。我建议你点击节目说明中的链接亲自看看。有些视频讲述了人们在各种不同的环境中散步、骑自行车、举办生日聚会等等,看上去非常逼真。我可能不是摄像师,而且我敢肯定,有些摄像师会对视频的某些质量感到抱怨。但是对于外行来说,它们非常引人注目。
对于圣经翻译的世界来说,我可以看到这对译者资源和经文参与度产生了重大影响。我知道为翻译者编写圣经视频词典内容的重要工作已经在进行中。这项技术可以为补充和/或加速此类工作提供一种有趣的动态方式。也可以用引人入胜的视频内容来增强经文参与材料,以帮助人们直观地参与经文。想象一下,为经文参与材料提供由 Sora 生成的引人入胜的视频场景以及有声的圣经或圣经故事内容。
实际上,这种情况已经以有趣的方式在互联网上流传开来。像 “人工智能圣经” 这样的项目在Instagram上非常受欢迎,它们试图根据人工智能模型的提示对经文段落进行可视化。其中一些可视化非常有趣,引起了广泛关注,尤其是那些描绘天使生物和精神领域的可视化。
现在... 我绝对认为以这种方式应用文本到图像和文本到视频模型可能会有一些问题。这些模型主要使用现代摄影和图形进行训练,这意味着在尝试可视化古代近东的场景时,它们可能会缺乏。而且,我们没有关于精神领域的优秀照片或视频,因为精神领域就是精神领域。但是,我们必须承认,像Sora这样的模特制作的视频给人留下了深刻的印象,而且,如果我们在正确理解它们的局限性的情况下应用它们,它们很可能会帮助我们吸引人们使用圣经和翻译资源。
无论是 Sora 还是其他模型,如果模型以透明和开放获取的方式发布,那么应对这些模型的局限性并确保我们以负责任的方式应用它们总是会更容易的。当然,OpenAI的Sora模型尚未以这种方式发布(或者目前根本没有发布),我们预计他们不会公开发布该模型。当模型(最好是相应的数据集)公开发布时,可以对其进行更全面的研究,并可以开发工具来完善它们在某些应用程序中的行为。用户体验模型变异和偏差的可能性也较小,这些变异和偏差不是由模型引起的,而是由模型周围的额外产品层引起的。
过去几周发布新更新的另一个模型家族痛苦地阐明了这一点:Google Gemini。双子座模型没有发布与OpenAI的Sora相媲美的视频生成功能,但他们确实发布了文本到图像的功能。很快就发现,Gemini的这种文本到图像的功能存在缺陷和偏见,其原因很可能与Gemini模型搭配的故意产品过滤器、层次或逻辑有关。我会让你查一下有关双子座的新闻报道,看看观察到的确切产出种类。我在这里提及只是为了强调开放获取方法的好处,在这种方法中,透明度可以帮助解释和纠正有缺陷的行为。
有趣的是,尽管谷歌将某些模式(例如Gemini中的文本转图像模型)保留为封闭的、受限的访问模式,但他们也许可地发布了一系列新模型。经许可的模型被称为Gemma模型,在发布时附有看似允许的条款,适用于非商业和商业用途。在接下来的几周内,我们将看到许多人使用自己的数据集和微调方法对这些模型进行实验和改进。整个系列的模型将以原始的Gemma模型为基础制作,并且将以透明的方式处理偏见和缺陷。
我有幸参加了斯坦福大学的TreeHacks黑客马拉松,一个周末有1500多名学生聚集在一起开发科技产品。这些学生的创造力以及他们在应用开源软件和开放存取人工智能模型时能做什么,让我大吃一惊。我们的赛道上有一个学生团队建立了一个名为MeshWorks的低功率无线电网状网络。这些学生支持使用低功耗设备进行长距离语音消息通信,并使用开放的LLM处理这些语音消息,以触发行动,将救灾单位与资源连接等。
这种开放模型的创新环境对我来说非常令人鼓舞,而且我敢肯定,即使 OpenAI 的 Sora 模型保持封闭状态,许多开放的替代方案也会随之而来。我们将看到在安全环境甚至离线环境中使用这些模型的更多可能性。因此,值得我们探索托管的封闭版本,以此来预览即将推出的内容,也是我们如何在圣经翻译中使用这项技术的游乐场。
如果你想进一步了解这些进展,请查看展会说明中的链接。感谢您的收听,很快就会再看一集《科技与遗嘱》!
عربي
صوتي
نص
हिन्दी
ऑडियो
प्रतिलिपि
बाइबल ट्रांसलेशन टेक्नोलॉजी पॉडकास्ट के एक और एपिसोड में आपका स्वागत है, जिसे टेक एंड टेस्टामेंट कहा जाता है। यह पॉडकास्ट एवरी ट्राइब एवरी नेशन इनोवेशन लैब द्वारा प्रस्तुत किया गया है और इसे मेरे द्वारा क्यूरेट किया गया है, डैनियल व्हिटनैक, जो प्रेडिक्शन गार्ड के संस्थापक और सीईओ हैं। टेक एंड टेस्टामेंट का प्रत्येक एपिसोड आर्टिफिशियल इंटेलिजेंस और भाषा प्रौद्योगिकी में हुई प्रगति पर अपडेट प्रदान करेगा। हम इस बात पर भी विचार करेंगे कि यह तकनीक बाइबल अनुवाद को कैसे प्रभावित कर सकती है या इसमें अंतर कर सकती है।
एक अनुस्मारक के रूप में आप हमारे सबस्टैक पेज पर शो के फ्रेंच, स्पेनिश, हिंदी, मंदारिन और अरबी में अनुवाद पा सकते हैं। और आइए कुछ सामुदायिक जाँच का अभ्यास करें। अगर आपको इन अनुवादों में त्रुटियां मिलती हैं, तो कृपया हमें बताएं, ताकि हम अनुवाद की गुणवत्ता में सुधार कर सकें।
इसके अलावा, मैं मिशनल AI शिखर सम्मेलन के बारे में सुनने वाले सभी लोगों को याद दिलाना चाहता हूं, जो 9 से 11 अप्रैल 2024 तक ऑरलैंडो, फ्लोरिडा में विक्लिफ मुख्यालय में होगा। यदि आप उन लोगों के साथ इकट्ठा होना चाहते हैं, जो बाइबल अनुवाद, शास्त्र जुड़ाव, या डिजिटल शिष्यत्व जैसे मिशनल संदर्भ में व्यावहारिक रूप से AI का उपयोग कर रहे हैं, तो यह वर्ष का मुख्य कार्यक्रम है। सुनिश्चित करें कि आप missional.ai पर रजिस्टर करें और अपनी यात्रा की योजना बनाना शुरू करें!
अब... आइए कुछ नवीनतम AI समाचारों की ओर रुख करते हैं। शायद पिछले कुछ हफ्तों में AI में सबसे बड़ी बात OpenAI के सोरा मॉडल की रिलीज़ थी। यह मॉडल एक टेक्स्ट-टू-वीडियो मॉडल है, जो कुछ बहुत ही आकर्षक वीडियो बनाता है। असल में OpenAI द्वारा किए गए प्रदर्शनों से पता चलता है कि हाई फ़िडेलिटी वीडियो जनरेट करने में एक मिनट तक का समय लगता है।
अतीत में कई तरह के इमेज-टू-वीडियो और टेक्स्ट-टू-वीडियो मॉडल जारी किए गए हैं। उदाहरण के लिए, RunwayML ने उपयोगकर्ताओं को अपने प्लेटफ़ॉर्म में स्थिर छवियों को वीडियो में बदलने की अनुमति दी है। हालाँकि, इनमें से अधिकांश मॉडल और सिस्टम बहुत छोटे वीडियो (जैसे 3-5 सेकंड) या बहुत कम फ़िडेलिटी या कम रिज़ॉल्यूशन वाले वीडियो बनाते हैं। OpenAI की सोरा वीडियो निर्माण की सीमाओं को थोड़ा और आगे बढ़ाती दिख रही है।
यह एक ऑडियो पॉडकास्ट है, इसलिए सोरा के वीडियो के लुक और फील का वर्णन करना थोड़ा मुश्किल है। मेरा सुझाव है कि आप खुद देखने के लिए शो नोट्स में दिए गए लिंक का अनुसरण करें। ऐसे वीडियो हैं जिनमें बहुत यथार्थवादी दिखने वाले लोग पैदल चलते हैं, बाइक चलाते हैं, जन्मदिन की पार्टी करते हैं और बहुत कुछ अलग-अलग वातावरण में हैं। हो सकता है कि मैं वीडियोग्राफर न होऊं, और मुझे यकीन है कि कुछ वीडियोग्राफर वीडियो के कुछ गुणों के बारे में सोचेंगे। लेकिन आम आदमी के लिए, वे काफ़ी आकर्षक होते हैं।
बाइबल अनुवाद की दुनिया के लिए, मैं देख सकता था कि यह अनुवादक के संसाधनों और धर्मग्रंथों से जुड़ाव पर महत्वपूर्ण प्रभाव डाल रहा है। मुझे पता है कि अनुवादकों के लिए वीडियो बाइबल शब्दकोश सामग्री पर पहले से ही महत्वपूर्ण काम चल रहा है। यह तकनीक ऐसे काम को पूरक और/या तेज करने के लिए एक दिलचस्प और गतिशील तरीका प्रदान कर सकती है। लोगों को पवित्रशास्त्र के साथ दृष्टिगत रूप से जुड़ने में मदद करने के लिए आकर्षक वीडियो सामग्री के साथ शास्त्र से जुड़ाव सामग्री को बढ़ाना भी संभव हो सकता है। सोरा द्वारा बनाए गए आकर्षक वीडियो दृश्यों के साथ पवित्रशास्त्र से जुड़ी सामग्री उपलब्ध कराने की कल्पना करें, जिसे ऑडियो बाइबल या बाइबल कहानी सामग्री के साथ जोड़ा जाए।
वास्तव में, यह परिदृश्य पहले से ही दिलचस्प तरीके से इंटरनेट पर चल रहा है। “द एआई बाइबल” जैसी परियोजनाएं, जो इंस्टाग्राम पर बहुत लोकप्रिय हो गई हैं, ने एआई मॉडल के संकेतों के आधार पर शास्त्र के अंशों की कल्पना करने की कोशिश की है। इनमें से कुछ विज़ुअलाइज़ेशन काफी दिलचस्प हैं और उन्होंने व्यापक ध्यान आकर्षित किया है, विशेष रूप से वे जो स्वर्गदूतों और आध्यात्मिक क्षेत्र को दर्शाते हैं।
अब... मुझे निश्चित रूप से लगता है कि टेक्स्ट-टू-इमेज और टेक्स्ट-टू-वीडियो मॉडल को इस तरह लागू करने में कुछ समस्याएं हो सकती हैं। इन मॉडलों को ज़्यादातर आधुनिक फ़ोटोग्राफ़ी और ग्राफ़िक्स पर प्रशिक्षित किया जाता है, जिसका अर्थ है कि उदाहरण के लिए, प्राचीन निकट पूर्व के दृश्यों को देखने की कोशिश करते समय उनमें कमी आ सकती है। और, हमारे पास आध्यात्मिक क्षेत्र की कोई अच्छी फ़ोटोग्राफ़ी या वीडियो नहीं है, क्योंकि यह सिर्फ़ आध्यात्मिक है। हालांकि, हमें यह स्वीकार करना होगा कि सोरा जैसे मॉडल से निकलने वाले वीडियो प्रभावशाली हैं, और, अगर हम उन्हें उनकी सीमाओं की उचित समझ के साथ लागू करते हैं, तो संभावना है कि वे बाइबल और अनुवादक संसाधनों से लोगों को आकर्षित करने में हमारी मदद कर सकते हैं।
चाहे वह सोरा हो या अन्य मॉडल, इन मॉडलों की सीमाओं से निपटना और यह सुनिश्चित करना कि हम उन्हें जिम्मेदार तरीके से लागू करते हैं, अगर मॉडल पारदर्शी और खुली पहुंच वाले तरीके से जारी किए जाते हैं, तो यह हमेशा आसान होता है। बेशक, OpenAI का सोरा मॉडल इस तरह से (या इस बिंदु पर बिल्कुल भी) जारी नहीं किया गया है, और हम उनसे मॉडल को खुले तौर पर रिलीज़ करने की उम्मीद नहीं करते हैं। जब मॉडल (और आदर्श रूप से संबंधित डेटासेट) खुले तौर पर जारी किए जाते हैं, तो उन पर अधिक गहन शोध किया जा सकता है और कुछ अनुप्रयोगों के लिए उनके व्यवहार को सुधारने के लिए टूलिंग विकसित की जा सकती है। इस बात की भी संभावना कम है कि यूज़र मॉडल के कारण नहीं, बल्कि मॉडल के आस-पास मौजूद अतिरिक्त उत्पाद परतों के कारण होने वाले मॉडल में परिवर्तनशीलता और पूर्वाग्रहों का अनुभव करेंगे।
पिछले कुछ हफ्तों में नए अपडेट जारी करने वाले एक अन्य मॉडल परिवार ने इसे पूरी तरह से स्पष्ट कर दिया था: Google Gemini। जेमिनी मॉडल ने OpenAI के सोरा को टक्कर देने के लिए वीडियो जनरेटिंग की कार्यक्षमता जारी नहीं की, लेकिन उन्होंने टेक्स्ट-टू-इमेज कार्यक्षमता जारी की। बहुत जल्दी यह स्पष्ट हो गया कि जेमिनी की यह टेक्स्ट-टू-इमेज कार्यक्षमता त्रुटिपूर्ण और पक्षपाती थी, काफी परेशान करने वाले तरीकों से, जिसे संभवतः जेमिनी मॉडल के साथ जोड़े गए जानबूझकर उत्पाद फ़िल्टर, लेयर्स या लॉजिक द्वारा समझाया गया है। मैं आपको मिथुन के आसपास की खबरों को देखने दूँगा, ताकि सटीक प्रकार के आउटपुट देखे जा सकें। मैं यहाँ सिर्फ़ ओपन एक्सेस दृष्टिकोण के लाभ पर ज़ोर देने के लिए उल्लेख करता हूँ, जहाँ पारदर्शिता त्रुटिपूर्ण व्यवहारों को समझाने और ठीक करने में मदद कर सकती है।
दिलचस्प बात यह है कि जहां Google जेमिनी में टेक्स्ट-टू-इमेज मॉडल जैसे कुछ मॉडल को बंद, प्रतिबंधित एक्सेस मॉडल के रूप में रोक रहा है, वहीं उन्होंने नए मॉडलों की एक श्रृंखला को भी अनुमति के साथ जारी किया है। अनुमत रूप से लाइसेंस प्राप्त मॉडल को जेम्मा मॉडल कहा जाता है, और उन्हें गैर-वाणिज्यिक और व्यावसायिक उपयोग दोनों के लिए अनुमत प्रतीत होने वाली शर्तों के साथ जारी किया गया है। आने वाले हफ्तों में, हम देखेंगे कि बहुत से लोग अपने स्वयं के डेटासेट और फाइन-ट्यूनिंग पद्धतियों का उपयोग करके इन मॉडलों के साथ प्रयोग करेंगे और इन मॉडलों को बेहतर बनाएंगे। मूल जेम्मा मॉडल से मॉडलों का एक पूरा परिवार तैयार किया जाएगा, और पूर्वाग्रहों और खामियों से पारदर्शी तरीके से निपटा जाएगा।
मुझे स्टैनफोर्ड यूनिवर्सिटी में ट्रीहैक्स हैकथॉन में भाग लेने का सौभाग्य मिला, जहां एक सप्ताह के अंत में 1500 से अधिक छात्र प्रौद्योगिकी उत्पाद बनाने के लिए एकत्रित हुए। इन छात्रों की रचनात्मकता और ओपन सोर्स सॉफ़्टवेयर और ओपन एक्सेस एआई मॉडल को लागू करते समय वे क्या कर सकते हैं, इससे मैं हैरान रह गया। हमारे ट्रैक में एक छात्र टीम थी, जो मेशवर्क्स नामक लो पावर रेडियो का एक जालीदार नेटवर्क बनाती थी। इन छात्रों ने कम बिजली वाले उपकरणों के साथ लंबी दूरी तक ध्वनि संदेशों के संचार को सक्षम किया और कार्रवाई शुरू करने, आपदा राहत इकाइयों को संसाधनों से जोड़ने, और बहुत कुछ करने के लिए खुले एलएलएम के साथ उन ध्वनि संदेशों को संसाधित किया।
खुले मॉडल के साथ नवोन्मेष का यह माहौल मेरे लिए बहुत उत्साहजनक है, और मुझे यकीन है कि, भले ही OpenAI का सोरा मॉडल बंद रहे, फिर भी कई खुले विकल्प सामने आएंगे। हम देखेंगे कि सुरक्षित वातावरण में और यहां तक कि ऑफलाइन भी इन मॉडलों के उपयोग के लिए और भी अधिक संभावनाएं खुलती हैं। इस प्रकार, आने वाली घटनाओं के पूर्वावलोकन के रूप में और बाइबल अनुवाद में हम इस तकनीक का उपयोग कैसे कर सकते हैं, इसके लिए एक खेल का मैदान के रूप में होस्ट किए गए, बंद किए गए संस्करणों की खोज करना उचित है।
यदि आप इन घटनाओं के बारे में और जानना चाहते हैं, तो शो नोट्स में दिए गए लिंक देखें। सुनने के लिए धन्यवाद, और जल्द ही टेक एंड टेस्टामेंट के एक और एपिसोड की तलाश करें!

